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毫 无 疑问 ， 随 着 多 核 处 理 器 和 云 计 算 系 统 的 广泛 应 用 ， 并 行 计算 不 再 是 计算 世界 中 被 束之高阁 的 偏 门 领域 。 并 行 性 
已 经 成 为 有 效 利用 资源 的 首要 因素 ，Peter Pacheco 撰 写 的 这 本 新 教材 对 于 初学 者 了 解 并 行 计 算 的 艺术 和 实践 很 有 帮助 。 


一 一 Duncan Buell， 南 卡罗来纳 大 学 计算 机 科学 与 工程 系 
本 书 阐述 了 两 个 越 来 越 重要 的 领域 : 使 用 Pthreads 和 OpenMP 进 行 共享 内 存 编程 ， 以 及 使 用 MPI 进 行 分 布 式 内 存 编 
程 。 更 重要 的 是 ， 通 过 指出 可 能 出 现 的 性 能 错误 ， 强 调 好 的 编程 实现 的 重要 性 。 这 些 主题 包含 在 计算 机 科学 、 物 理学 和 


数学 等 多 个 学 科 中 。 各 章 包 含 了 大 量 不 同 难 易 程度 的 编程 习题 。 对 于 希望 学 习 并 行 编程 技巧 、 更 新 知识 面 的 学 生 或 专业 
人 士 来 说 ， 本 书 是 一 本 理想 的 参考 书 。 


一 一 Leigh Little， 纽 约 州立 大 学 布 罗 科 波 特 学 院 计算 机 科学 系 


并 行 编程 已 不 仅仅 是 面向 专业 技术 人 员 的 一 门 学 科 。 如 果 想 要 全 面 开发 集群 和 多 核 处 理 器 的 计算 能 力 ， 那 么 学 习 
分 布 式 内 存 和 共享 内 存 的 并 行 编程 技术 是 不 可 或 缺 的 。 本 书 是 一 本 精心 撰写 的 、 全 面 介绍 并 行 计算 的 书籍 。 作 者 循序 渐进 
地 展示 了 如 何 利用 MPI、Pthreads 和 OpenMP 开 发 高 效 的 并 行程 序 ， 教 给 那些 专业 知识 有 限 、 没 有 并 行 化 经 验 的 读者 如 
何 开发 、 调 试 分 布 式 内 存 和 共享 内 存 的 程序 ， 以 及 对 程序 进行 性 能 评估 。 


本 书 特色 


@ 采用 教程 形式 ， 从 简短 的 编程 实例 起 步 ， 一 步 步 编 写 更 有 挑战 性 的 程序 。 
@ 重点 介绍 分 布 式 内 存 和 共享 内 存 的 程序 设计 、 调 试 和 性 能 评估 。 
@ 使 用 MPI、Pthreads 和 OpenMP 等 编程 模型 ， 强 调 实际 动手 开发 并 行程 序 
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本 书 全 面 涵盖 了 并 行 软件 和 硬件 的 方方面面 ， 深 入 浅 出 地 介绍 如 何 使 用 MPI (分 布 式 内 存 编程 ) 、 
Pthreads 赤 OWlen 贡 P (共享 内 存 编程 》 编 写 高 效 的 并 行程 序 。 各 章节 包含 了 难 易 程度 不 同 的 编程 习题 。 

本 书 可 以 用 做 计算 机 科学 专业 低 年 级 本 科 生 的 专业 课程 的 教材 ， 也 可 以 作为 软件 开发 人 员 学 习 并 行程 
序 设计 的 专业 参考 书 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 个 领域 
取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 闻名 家 辈出 、 独 领 风骚 。 
在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 学 科 中 的 许多 泰山 北斗 同时 身 
处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 划 了 研究 的 范畴 ,还 揭示 了 学 术 的 源 变 ， 
婚 遵 循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 益 迫 切 。 
这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 
在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 发 展 的 儿 十 年 间 积 证 和 发 展 
的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 
发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华 章 公 司 较 早 意识 到 “出 版 要 为 教育 服务 ” 。 自 1998 年 开始 ， 我 们 就 将 工作 重点 
放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 和 努力， 我 们 与 Pearson，MeGraw-Hill ，Elsevier， 
MIT，John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教 
材 中 关 选 出 Andrew S. Tanenbaum ，Bjarne Stroustrup，Brain W. Kernighan, Dennis Ritchie ，Jim Gray ， 
Afred V. Aho, John E. Hoperoft, Jeffrey D. Ullman ， Abraham Silberschatz, William Stallings, Donald FE- 
. Knuth，John L. Hennessy，Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 从 书 ” 为 总 
称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 囊 助 ， 国 内 的 专家 不 仅 提 供 了 中 肯 的 选 题 
指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 的 
还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 从 书 ” 已 经 出 版 了 近 两 百 个 品种 ， 这 些 书籍 在 读者 中 
树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 
篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 书 有 了 
质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 
计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达 
到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联 
系 方式 如 下 : 
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本 书 在 对 并 行 硬件 和 并 行 软件 进行 知识 总 结 之 后 ， 着 重 介绍 如 何 利 用 MPI、Pthreads 和 OpenMP 开 
发 高 效 的 并 行程 序 。 本 书 的 特点 在 于 

1) 文字 流畅 ， 易 于 理解 。 本 书 内 容 通 俗 易 懂 ， 简 洁 实 用。 清晰 的 概念 解释 ， 配 以 丰富 的 实例 和 易 
懂 的 代码 ， 对 帮助 初学 者 理解 并 行程 序 设计 的 基本 手段 非常 重要 ， 可 以 帮助 读者 很 快 掌握 设计 并 行程 
序 的 基本 方法 。 

2) 循序 渐进 ， 由 浅 及 深 。 本 书 分 别 介绍 了 如 何 利 用 MPI、Pthreads 和 OpenMP 进行 并 行程 序 设计 。 
每 一 章 都 从 最 基本 的 实例 开始 示范 ， 再 介绍 一 些 常见 问题 不 同 的 实现 方法 ， 最 后 分 析 和 比较 不 同 实现 
方法 的 性 能 。 这 不 仅 能 帮助 初学 者 快速 掌握 并 行 编程 方法 ， 还 能 让 读者 进一步 学 习 开发 高 效 并 行程 序 
设计 的 方法 。 

3) 重 实践 ， 重 开发 。 各 章 包 含 了 详细 介绍 的 编程 实例 ， 以 及 不 同 难 易 程度 的 编程 习题 。 

本 书 不 仅 适 合作 为 计算 机 专业 并 行程 序 设计 的 课程 教材 ， 对 需要 通过 并 行程 序 设计 提高 计算 性 能 
的 其 他 学 科 〈 如 物理 、 机 械 、 生 物 医药 等 专业 ) 的 技术 人 员 ， 也 可 以 作为 参考 手册 。 

本 书 由 上 海 交 通 大 学 邓 依 妮 副 教授 主持 翻译 定稿 。 此 外 ， 冯 叶 、 曾 卫 、 黄 饮 、 黄 叶 伟 、 戴 云 晶 、 
王强 和 吕 品 也 参加 了 本 书 部 分 翻译 工作 ， 黄 奢 还 参与 了 本 书 的 校对 工作 ， 对 他 们 的 支持 和 帮助 ， 在 此 
表示 衷心 的 感谢 。 

由 于 时 间 和 水 平 有 限 ， 翻 译 中 难免 存在 不 准确 ， 敬 请 读者 指正 。 


译 者 
2012 年 6 月 
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随 着 多 核 处 理 器 和 云 计 算 系 统 的 广泛 应 用 ， 毫 无 疑问 ， 并 行 计 算 不 再 是 计算 世界 中 被 束之高阁 的 
偏 门 领域 。 并 行 性 已 经 成 为 有 效 利 用 资源 的 首要 因素 。 由 Peter Pacheco (彼得 帕 切 克 ) 撰写 的 这 本 新 
教材 ， 对 于 刚 开始 学 术 生 涯 的 学 生 掌 握 并 行 计算 的 艺术 和 实践 很 有 帮助 。 

Duncan Buell 


南 卡罗来纳 州 大 学 计算 机 科学 与 工程 系 


本 书 盖 述 了 两 个 越 来 越 重要 的 领域 : 使 用 Pthreads 和 OpenMP 进行 共享 内 存 编程 ， 以 及 使 用 MPI 进 
行 分 布 式 内 存 编程 的 基本 方法 。 更 重要 的 是 ， 通 过 指出 可 能 出 现 的 性 能 错误 ， 强 调 好 的 编程 实践 的 重 
要 性 。 这 些 主题 包含 在 计算 机 科学 、 物 理学 和 数学 等 多 个 学 科 中 。 各 章 包 含 了 大 量 不 同 难 易 程度 的 编 
程 习题 。 对 希望 学 习 并 行 编程 技巧 、 更 新 知识 面 的 学 生 或 专业 人 士 来 说 ， 本 书 是 一 本 理想 的 参考 书 。 

， Leigh Little 
纽约 州立 大 学 布 罗 科 波 特 学 院 计 算 机 科学 系 


本 书 是 一 本 精心 撰写 的 、 全 面 介绍 并 行 计算 的 书籍 。 学 生 以 及 相关 领域 从 业 人 员 会 从 本 书 的 相关 
最 新 信息 中 获 益 匪 浅 。Peter Pacheco 通俗 易 懂 的 写作 手法 ， 结 合 各 种 有 趣 的 实例 ， 使 本 蔬 引 人 人 胜 。 在 
并 行 计算 这 个 瞬息 万 变 、 不 断 发 展 的 领域 里 ， 本 书 深入 浅 出 、 全 面 地 介绍 了 并 行 软件 和 并 行 硬件 的 方 
方面 面 。 

Kathy J. Liszka 
阿 克 伦 大 学 计算 机 科学 系 





并 行 计 算 就 是 未 来 ! 本 书 通过 实用 而 有 益 的 例子 ， 介 绍 了 这 门 复杂 的 学 科 。 
Andrew N. Sloss, FBCS 
ARM 公司 顾问 工程 师 ,《ARM System Developers Guide》 作者 


前 言 | 


An Introduction to Parallel Programming 


并 行 硬件 已 经 普及 了 一 段 时 间 。 现 在 已 经 很 难 找到 一 人 台 没 有 多 核 处 理 器 的 笔记 本 、 台 式 机 或 者 服 
务 器 。 在 20 世纪 90 年 代 还 是 高 性 能 工作 站 的 Beowulf 集群 ， 而 今 已 经 达到 普及 程度 。 与 此 同时 ， 云 计 
算 的 出 现 使 得 分 布 式 内 存 系统 与 台式 机 一 样 便于 访问 。 尽 管 如 此 ， 大 多 数 计算 机 专业 的 学 生 在 毕业 时 
拥有 很 少 甚 至 几乎 没有 任何 并 行 编程 经 验 。 昌 然 许多 学 院 或 大 学 为 高 年 级 学 生 提 供 并 行 计算 选修 课程 ， 
但 因为 计算 机 科学 专业 有 过 多 的 必修 课 要 求 ， 很 多 人 在 毕业 时 其 全 没有 写 过 一 个 多 线程 或 者 多 进程 的 
程序 。 

毫 无 疑问 ， 这 样 的 现状 是 需要 改变 的 。 虽 然 许 多 程序 在 单 核 上 获得 了 较 满 意 的 性 能 ， 但 是 计算 机 
科学 家 们 必须 意识 到 ， 并 行 化 有 潜力 使 性 能 得 到 巨大 提升 。 当 需求 提升 时 ， 他 们 应 该 具备 开发 这 种 潜 
力 的 能 力 。 

本 书 间 在 部 分 地 解决 该 问题 。 它 介绍 如 何 使 用 MPI、Pthreads 和 OpenMP 编写 并 行程 序 。MPI、 
Pthreads 和 OpenMP 是 三 个 广泛 应 用 在 并 行 编程 中 的 应 用 程序 编程 接口 ( Application Programming Inter- 
face，API) 。 本 书 的 预期 读者 是 需要 编写 并 行程 序 的 学 生 和 专业 人 员 。 阅 读本 书 仅 需 要 很 少 的 预备 知 
识 : 大 专程 度 的 数学 知识 和 使 用 C 语言 编写 串 行 程序 的 能 力 。 前 导 知 识 要 求 少 ， 因 为 我 们 认为 学 生 应 
该 尽快 具备 编写 并 行 系统 的 能 力 。 

在 旧金山 大 学 ， 计 算 机 科学 专业 的 学 生 可 以 通过 学 习 以 本 书 为 教材 的 课程 来 达到 专业 课 的 要 求 。 
“计算 机 科学 导论 ”是 大 多 数 新 生 在 第 一 个 学 期 学 习 的 课程 ， 本 书 介绍 的 课程 可 以 安排 为 它 的 后 续 课 
程 。 我 们 将 这 门 课 程 作为 并 行 计算 的 相关 课程 已 经 有 6 年 时 间 。 根 据 我 们 的 经 验 ， 学 生 完 全 不 需要 从 
中 、 高 年 级 才 开 始 编写 并 行程 序 。 相 反 ， 这 门 课程 十 分 受 欢迎 。 通 过 学 习 这 门 导论 课 ， 学生 可 以 很 轻 
松 地 将 并 行 性 应 用 于 其 他 课程 。 

第 二 学 期 的 新 生 可 以 通过 课堂 学 习 编 写 并 行程 序 ， 而 带 着 目的 进行 学 习 的 计算 机 专业 人 员 可 以 自 
学 并 行 编程 。 我 们 希望 本 书 对 于 他 们 是 有 用 的 资源 。 


关于 本 书 

正如 前 面 所 说 的 ， 本 书 的 主要 目的 是 : 让 那些 对 计算 机 科学 只 有 有 限 缘 景 知识 、 没 有 并 行 性 经 验 
的 读者 学 习 使 用 MPI、Pthreads 和 OpenMP 进行 并 行 编程 。 为 了 让 本 书 使 用 起 来 更 灵活 ， 我 们 尽量 让 那 
些 对 API 没有 兴趣 的 读者 花费 较 少 的 时 间 就 能 很 容易 地 阅读 剩 下 的 部 分 。 因 此 ， 针 对 这 三 个 API 的 章 
节 是 相互 独立 的 : 可 以 按 任意 顺序 阅读 它们 ， 甚 至 可 以 跳 过 一 两 个 章节 。 但 是 ， 这 种 独立 性 有 一 定 代 
价 : 有 些 内 容 会 在 这 些 章节 中 重复 提 到 。 当 然 ， 重复 的 内 容 可 以 简单 浏览 或 者 直接 跳 过 。 

没有 并 行 计算 经 验 的 读者 应 该 先 阅读 第 1 章 。 第 1 章 尝试 用 相关 的 非 技 术 性 的 语言 解释 为 什么 并 行 
系统 已 经 在 计算 机 领域 中 占有 重要 地 位 。 这 一 章 还 为 并 行 系统 和 并 行 编程 提供 了 一 个 简短 的 介绍 。 

第 2 章 介绍 计算 机 硬件 和 软件 的 一 些 技术 背景 。 在 API 章节 开始 之 前 ， 许 多 关于 硬件 的 材料 可 以 先 
粗略 浏览 。 第 3 章 、 第 4 章 、 第 5 章 分 别 介绍 使 用 MPL、Pthreads、OpenMP 进行 编程 。 

在 第 6 章 中 ,我 们 开发 了 两 个 更 长 的 程序 : 并行 n 体 问题 求解 和 并 行 树 搜索 。 这 两 个 程序 都 使 用 上 
述 的 三 个 API。 第 7 章 提供 一 个 简单 的 列表 ， 给 出 并 行 计算 各 个 方面 的 补充 信息 。 

我 们 使 用 C 语言 来 开发 程序 ， 因 为 这 三 个 API 都 使 用 C 语言 接口 ， 同 时 也 因为 C 语言 是 相对 简单 
易学 的 语言 ， 尤 其 是 对 于 C+ + 和 Java 程序 员 来 说 ， 他 们 已 经 对 ( .的 控制 结构 非常 熟悉 。 











课堂 使 用 

本 书 来 源 于 旧金山 大 学 低 年 级 本 科 生 的 课程 。 这 门 课 满足 了 计算 机 科学 的 专业 课 要 求 ， 同 时 也 
是 本 科 生 操作 系统 课程 的 先 修 课 。 本 课程 唯一 的 要 求 是 在 第 一 学 期 的 “计算 机 科学 导论 ”课程 中 获 
得 B 及 以 上 成 绩 , 或 在 第 二 学 期 的 “计算 机 科学 导论 ”课程 中 获得 C 及 以 上 成 绩 。 课 程 的 前 四 个 星 
期 介绍 C 语言 编程 。 由 于 大 部 分 学 生 已 经 编写 过 java 程序， 因此 课程 主要 集中 在 C 语言 中 如 何 使 用 
指针 上 。 课 程 剩 下 的 部 分 介绍 使 用 MPI、Pthreads 、OpenMP 编程 。 

上 述 的 大 部 分 内 容 集中 在 本 书 第 1 章 、 第 3 章 、 第 4 章 、 第 5 章 中 ， 并 在 第 2 章 和 第 6 章 中 有 少量 
提 及 。 当 需求 提高 时 ， 第 2 章 的 背景 知识 应 该 介绍 。 比 如 ， 在 讨论 OpenMP (第 5 章 ) 缓存 一 致 性 问题 
前 ， 应 该 先 介绍 第 2 章 中 缓存 的 知识 。 

本 课程 的 作业 包括 每 周作 业 、5 个 编程 作业 、 两 次 期 中 考试 和 一 次 期 末 考 试 。 作 业 中 经 常 涉及 编写 
一 个 简短 的 程序 或 者 对 现 有 的 程序 进行 一 些小 的 改进 。 这 些 作业 的 目的 是 保证 学 生 能 够 眼 上 课程 ， 并 
且 根 据 课 党 上 的 想法 得 到 实际 操作 经 验 。 这 些 作 业 的 布置 是 本 课程 成 功 的 重要 原因 。 课 本 中 大 多 数 习 
题 与 这 些 简短 的 作业 是 相 适 应 的 。 

编程 作业 中 需要 编写 更 大 的 程序 ， 但 我 们 一 般 会 为 学 生 提 供 非 常 多 的 指导 : 我 们 经 常 在 作业 中 提 
供 伪 代 码 ， 并 在 课堂 上 讨论 较 难 的 部 分 。 这 些 额 外 的 指导 是 非常 有 效 的 : 那些 需要 花费 学 生 大 量 时 间 
完成 的 编程 作业 变 得 不 再 难以 提交 。 期 中 和 期 末 考试 的 结果 ， 以 及 讲授 操作 系统 课程 的 教师 的 报告 都 
表明 ， 这 门 课程 对 于 教授 学 生 如 何 编写 并 行程 序 是 非常 成 功 的 。 

对 于 其 他 高 级 并 行 计算 课程 ， 本 书 和 它 的 在 线 辅 助 材料 可 以 作为 补充 ， 许 多 关于 这 三 个 API 语法 和 
语义 的 信息 都 可 以 作为 课外 阅读 资料 。 本 书 也 可 以 作为 工程 方面 的 课程 或 者 与 计算 机 科学 无 关 但 涉及 
并 行 计算 的 课程 的 补充 材料 。 


辅助 材料 


关于 本 书 的 勘误 表 和 一 些 相 关 材 料 ， 请 访问 本 书 出 版 社 的 网 站 (http: //www. elsevierdirect. com/ ) ， 
那里 还 可 以 下 载 完整 的 课件 、 图 表 、 习 题 答 案 和 编程 作业 。 所 有 的 用 户 都 可 以 下 载 课 本 中 讨论 过 的 较 
长 程序 。 

我 们 非常 感谢 读者 提出 任何 发 现 的 错误 。 如 果 你 发 现 错误 ， 请 发 送 邮件 至 peter@ usfca. edu。 








昌 ”有趣 的 是 ， 很 多 学 生 认 为 5 语言 中 的 指针 比 MPI 编程 更 困难 。 
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1 章 


An Introduction to Parallel Programming 


为 什么 要 并 行 计算 





从 1986 年 到 2002 年 ， 微 处 理 器 的 性 能 以 平均 每 年 50% 的 速度 不 断 提升 [27]。 这 样 史 无 前 
例 的 性 能 提升 ， 使 得 用 户 和 软件 开发 人 员 只 需要 等 待 下 一 代 微 处 理 器 的 出 现 ， 就 能 够 获得 应 用 程 
序 的 性 能 提升 。 但 是 ， 从 2002 年 开始 ， 单 处 理 器 的 性 能 提升 速度 降低 到 每 年 大 约 20% ， 这 个 差 
异 是 巨大 的 :如果 以 每 年 50% 的 速度 提升 ， 在 10 年 里 微 处 理 器 的 性 能 会 提升 60 倍 ， 而 以 20% 的 
速度 ，10 年 里 只 能 提升 6 售 。 

此 外 ， 性 能 提升 速度 的 差异 也 极 大 地 改变 了 处 理 器 的 设计 。 到 2005 年 ， 大 部 分 主流 的 微 处 
理 器 制造 商 已 决定 通过 并 行 处 理 来 快速 提升 微 处 理 器 的 性 能 。 他 们 不 再 继续 开发 速度 更 快 的 单 处 
理 器 芯片 ， 而 是 开始 将 多 个 完整 的 单 处 理 器 放 到 一 个 集成 电路 芯片 上 。 

这 一 变化 对 软件 开发 人 员 带 来 了 重大 的 影响 : 大 多 数 串 行程 序 是 在 单个 处 理 器 上 运行 的 ， 不 
会 因为 简单 地 增加 更 多 的 处 理 器 就 获得 极 大 的 性 能 提高 。 串 行程 序 不 会 意识 到 多 个 处 理 器 的 存 
在 ,它们 在 一 个 多 处 理 器 系统 上 运行 的 性 能 ， 往 往 与 在 多 处 理 器 系统 的 一 个 处 理 器 上 运行 的 性 能 
相同 。 

所 有 这 一 切 引出 如 下 问题 : 

1) 为 什么 我 们 要 关心 并 行 ? 单 处 理 器 系统 不 是 已 经 足够 快 了 吗 ? 毕竟 每 年 20% 的 性 能 提升 
也 是 很 可 观 的 。 

2) 为 什么 微 处 理 器 制造 商 不 能 继续 研制 更 快 的 单 处 理 器 系统 ? 为 什么 要 研制 并 行 系统 ? 为 
什么 要 研制 多 处 理 器 系统 ? 

3) 为 什么 不 能 编写 程序 ， 将 串 行 程序 自动 转换 成 可 以 充分 利用 多 处 理 器 的 并 行程 序 ? 

下 面 我 们 简单 地 回答 上 述 问题 。 但 请 记 住 : 有 些 问 题 的 答案 不 是 一 成 不 变 的 。 例 如 ， 每 年 
20% 的 性 能 提升 对 大 多 数 应 用 程序 来 说 是 绰 颖 有余 的 了 。 


1.1 为 什么 需要 不 断 提升 的 性 能 


过 去 几 十 年 中 ， 不 断 提升 的 计算 能 力 已 经 成 为 许多 飞速 发 展 领域 (如 科学 、 互 联网 、 娱 乐 
等 ) 的 核心 力量 。 例 如 : 人 类 基因 解码 、 更 准确 的 医疗 成 像 、 更 快速 精确 的 网 络 搜索 、 更 真实 的 
电脑 游戏 ， 都 离 不 开 计算 能 力 的 提高 。 确 实 ， 没 有 早期 的 提高 ， 现 在 很 多 应 用 的 计算 能 力 提升 将 
会 很 难 实现 ， 甚 至 不 可 能 实现 。 但 是 ， 我 们 不 能 满足 于 现状 。 随 着 计算 能 力 的 提升 ， 我 们 要 考虑 
解决 的 问题 也 在 增加 ， 如 下 就 是 一 些 例 子 : 
e 气候 模拟 : 为 了 更 好 地 理解 气候 变化 ， 我 们 需要 更 加 精确 的 计算 模型 ， 这 种 模型 必须 包括 
大 气 、 海 洋 、 陆 地 以 及 极地 冰川 之 间 的 相互 关系 。 我 们 需要 对 各 种 因素 如 何 影响 全 球 气候 
做 详细 研究 。 

。 蛋白质 折 登 ; 人 们 相信 错误 折 释 的 蛋白 质 与 享 廷 顿 病 、 帕 金森 病 、 老 年 痴呆 症 等 疾病 有 千 
丝 万 缕 的 联系 ， 但 现 有 的 计算 性 能 严重 限制 了 研究 复杂 分 子 〈 如 蛋白 质 ) 结构 的 能 力 。 

。 药物 发 现 : 不 断 提 高 的 计算 能 力 可 以 从 不 同方 面 促进 新 的 医学 研究 。 例 如 ， 有 许多 药物 只 
是 对 一 小 部 分 患者 有 效 。 我 们 可 以 通过 仔细 分 析 疗 效 欠 佳 患者 的 基因 来 找到 替代 的 药物 ， 
但 这 需要 大 规模 的 基因 组 计算 和 分 析 。 


[2 ] 





2， 并 行程 序 设计 导论 


。 能 源 研究 : 不 断 提 高 的 计算 能 力 可 以 为 某 些 技术 〈 如 风力 涡轮 机 、 太 阳 能 电池 和 蓄电池 ) 
构建 更 详细 的 模型 。 这 些 模 型 能 够 为 建立 更 高 效 清洁 的 能 源 提供 信息 。 

。 数据 分 析 : 每 天 都 会 产生 大 量 的 数据 。 据 估计 ， 全 球 范围 存储 的 数据 每 两 年 翻 一 番 [28]， 
而 这 些 数据 中 的 大 部 分 在 未 经 分 析 前 是 无 用 的 。 例 如 ， 了 解 人 类 DNA 的 核 苷 酸 序 列 本 身 
是 没有 用 的 ， 而 理解 这 个 序列 如 何 影响 生长 发 育 ， 以 及 它 是 如 何 引起 疾病 的 ， 需 要 大 规模 
的 数据 分 析 。 除 了 基因 组 学 ， 欧 洲 核子 研究 中 心 (CERN) 的 大 型 强 子 对 挤 机 、 医 疗 成 
像 、 天 文 研究 、 网 络 搜索 引擎 也 会 产生 海量 的 数据 ， 并 需要 对 这 些 数据 进行 大 规模 分 析 。 

上 述 这 些 问题 以 及 其 他 问题 的 解决 都 需要 更 强大 的 计算 能 力 。 


1.2 为 什么 需要 构建 并 行 系统 


单 处 理 器 性 能 大 幅度 提升 的 主要 原因 之 一 ， 是 日 益 增 加 的 集成 电路 晶体 管 密度 (晶体管 是 电 
子 开 关 ) 。 随 着 晶体 管 尺寸 的 减 小 ， 晶 体 管 的 传递 速度 增 快 ， 和 集成 电路 整体 的 速度 也 增 快 。 但 是 ， 
随 着 品 体 管 速度 的 增 快 ， 它们 的 能 耗 也 相应 增加 。 大 多 数 能 量 是 以 热能 的 形式 消耗 ， 当 一 块 集成 
电路 变 得 太 热 的 时 候 ， 就 会 变 得 不 可 靠 。 在 21 世纪 的 第 一 个 10 年 中 ， 用 空气 冷却 的 集成 电路 的 
散热 能 力 已 经 达到 了 极限 [26]。 

因此 ， 通 过 继续 增 快 集成 电路 的 速度 来 提高 处 理 器 性 能 的 方法 变 得 不 再 可 行 。 但 是 集成 电路 
晶体 管 的 密度 还 在 增加 ， 并 且 还 会 持续 一 段 时 间 。 而 且 ， 既 然 计 算 方法 对 改善 我 们 现 有 的 方式 有 
潜在 的 推动 作用 ， 那 么 继续 发 掘 更 强 的 计算 能 力 就 是 必要 而 迫切 的 。 最 后 ， 如 果 集 成 电路 制造 商 
不 能 继续 推出 更 新 、 更 好 的 产品 ， 那 么 它 很 快 就 会 被 淘汰 。 

我 们 如 何 利用 还 在 不 断 增加 的 晶体 管 密度 ?答案 是 并 行 。 集 成 电路 制造 商 的 决策 是 ; 与 其 构 
建 更 快 、 更 复杂 的 单 处 理 器 ， 不 如 在 单个 芯片 上 放置 多 个 相对 简单 的 处 理 器 。 这 样 的 集成 电路 称 
为 多 核 处 理 器 。 核 已 经 成 为 中 央 处 理 器 或 者 CPU 的 代名词 。 在 这 样 的 设 定 下 ， 传 统 的 只 有 一 个 
CPU 的 处 理 器 称 为 单 核 系统 。 


1.3 为 什么 需要 编写 并 行程 序 

大 多 数 为 传统 单 核 系统 编写 的 程序 无 法 利用 多 核 处 理 器 。 虽然 可 以 在 多 核 系统 上 运行 一 个 程 
序 的 多 个 实例 ， 但 这 样 意义 不 大 。 例 如 ， 在 多 个 处 理 器 上 运行 一 个 喜爱 的 游戏 程序 的 多 个 实例 并 
不 是 我 们 需要 的 。 我 们 需要 的 是 这 个 程序 能 够 更 快 地 运行 ， 有 更 加 逼真 的 图 像 。 为 了 达到 这 一 目 
的 ， 就 需要 将 串 行 程序 改写 为 并 行程 序 ， 或 者 编写 一 个 翻译 程序 来 自动 地 将 串 行程 序 翻译 成 并 行 
程序 ， 只 有 这 样 才能 充分 利用 多 核 。 不 幸 的 是 ,研究 人 员 在 自动 将 串 行程 序 (例如 C 或 C++ 编 
写 的 程序 ) 转换 成 并 行程 序 上 鲜 有 突破 。 

这 并 不 令 人 惊讶 。 尽 管 我 们 可 以 编号 一 些 程序 ， 让 这 些 程序 辨识 串 行程 序 的 常见 结构 ， 并 自 
动 将 这 些 结构 转换 成 并 行程 序 的 结构 ， 但 转化 后 的 并 行程 序 在 实际 运行 时 可 能 很 低 效 。 例 如 ， 两 
个 xz 的 矩阵 相 乘 是 由 多 个 点 积 操作 组 成 的 一 个 序列 ， 但 是 将 矩阵 相 乘 并 行 化 为 一 系列 并 行 执 





行 的 点 积 操作 ， 在 很 多 系统 上 运行 效率 并 不 高 。 


一 个 串 行 程序 的 高 效 并 行 实现 可 能 不 是 通过 发 掘 其 中 每 一 个 步骤 的 高 效 并 行 实现 来 获得 ， 相 
反 ， 最 好 的 并 行 化 实现 可 能 是 通过 一 步 步 回溯 ， 然 后 发 现 一 个 全 新 的 算法 来 获得 的 。 
举例 来 说 ， 假 设 我 们 需要 计算 ”个 数 的 值 再 累加 求 和 ， 如 下 是 串 行 代码 : 
sum = 0; 
for (i = 0; 1 <n; itr) { 
x = Computenext_vyaluelt. . .); 


} 
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现在 我 们 假设 有 个 核 ， 且 p 远 小 于 n， 那 么 每 个 核能 够 计算 大 约 np 个 数 的 值 并 累加 求 和 ， 以 
得 到 部 分 和 : 


my-sum = 0: 

my-first.i = . . .; 

my-last. i =. . ,.; 

for (my-i = my_first_i; my-i < my_last_i; my.i+t+} { 
my_x = Compute next.value!{. . .1); 
My-sUm += My-_x; 


} 


此 处 的 前 级 my_ 代 表 每 个 核 都 使 用 自己 的 私有 变量 ， 并 且 每 个 核能 够 独立 于 其 他 核 来 执行 该 代 
码 块 。 
每 个 核 都 执行 完 代码 后 ， 变 量 my_sum 中 就 会 存储 调用 Compute_next_value 获得 的 值 的 
和 。 例 如 ,假如 有 8 个 核 ,n=24，24 次 调用 Compute_next_value 获得 如 下 的 值 : 
1, 4,3 9,2,8 5,1,1 6,2,7 2,5,0 4,1,8 6,5,1 2,3,9 
这 样 存 储 在 my_sum 中 的 值 将 是 : 








这 里 ,我 们 假定 用 非 负 整 数 0，1 ，…, p -1 来 标识 各 个 核 ，p 是 核 的 总 数 。 
当 各 个 核 都 计算 完 各 自 的 my_sunm 值 后 ,将 自己 的 结果 值 发 送 给 一 个 指定 为 “master” 的 核 
( 主 核 ) ,master 核 将 收 到 的 部 分 和 累加 而 得 到 全 局 总 和 : 


if (Imthe master Core) { 
for each Core other than myself | 
receive value from core; 
sum += vyalue; 
} 

}elsel 

| send my-x to the master; 

在 我 们 的 例子 中 ， 假 如 master 核 是 0 号 核 ， 它 将 部 分 和 累加 求全 局 总 和 8+19+7+15+7+13+ 
12 +14=95, 

但 是 , 可 能 你 已 经 想到 一 个 更 好 的 方法 了 一 一 特别 是 当 核 的 数目 比较 多 的 时 候 ， 不 再 由 mas- 
ter 核 计算 所 有 部 分 和 的 累加 工作 ， 可 以 将 各 个 核 两 两 结对 ,0 号 核 将 自己 的 部 分 和 与 1 号 核 的 部 
分 和 做 加 法 ，2 号 核 将 自己 的 部 分 和 与 3 号 核 的 部 分 和 做 加 法 ,4 号 核 将 自己 的 部 分 和 与 5 号 核 
的 部 分 和 做 加 法 ， 以 次 类 推 。 然 后 ， 再 在 偶数 核 上 重复 累加 部 分 和 : 0 号 核 加 上 2 号 核 ，4 号 核 
加 上 6 号 核 ， 以 次 类 推 ， 如 图 1-1 所 示 。 圆 团 表 示 当 前 核 所 得 到 的 和 ， 箭 头 表 示 一 个 核 将 自己 的 
部 分 和 发 送 给 另 一 个 核 ， 加 号 表示 一 个 核 在 收 到 另 一 个 核发 送 来 的 部 分 和 后 与 自己 本 身 的 部 分 和 
相 加 。 

上 述 两 种 计算 全 局 总 和 的 算法 中 ，master 核 (0 号 核 ) 承担 了 更 多 的 工作 量 ， 整 个 程序 计算 
全 局 总 和 的 时 间 就 等 于 master 核 的 计算 时 间 。 在 8 个 核 的 情况 下 ， 第 一 种 方法 中 ，master 核 需 要 
执行 7 次 接收 操作 ， 而 第 二 种 方法 中 ，master 核 仅 需要 执行 3 次 接收 操作 。 因 此 第 二 种 方法 比 第 
一 种 方法 快 2 倍 ， 当 有 更 多 的 核 时 ， 两 者 的 差异 更 大 。 在 1000 个 核 的 情况 下 ， 第 一 种 方法 需要 
999 次 接收 和 加 法 操作 ， 而 第 二 种 方法 只 需要 10 次， 提高 了 100 倍 。 

非常 明显 ， 第 一 种 计算 全 局 总 和 的 方法 是 对 串 行 求 和 程序 的 一 般 化 : 将 求 和 的 工作 在 核 之 间 
平分 ， 等 到 每 个 核 都 计算 出 部 分 和 之 后 ，master 简单 地 重复 串 行 程序 中 基本 的 串 行 求 和 。 如 果 有 
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个 核 ，master 就 需要 计算 p 个 值 的 总 和 。 而 第 二 种 计算 全 局 总 和 的 方法 与 原来 的 串 行程 序 没有 
多 大 关系 。 





图 1-1 多 个 核 共同 计算 形成 一 个 全 局 总 和 


问题 的 关键 是 : 除非 事先 已 经 定义 好 这 人 么 一 个 高 效 的 求全 局 和 算法 ， 和 否则 翻译 程序 不 太 可 能 
发 现 第 二 种 计算 全 局 总 和 的 方法 。 在 翻译 的 时 候 ， 通 过 识别 出 原来 的 串 行 循环 ， 将 其 替换 为 预定 
义 好 的 高 效 并 行 求 和 算法 。 

我 们 期 望 通过 编写 软件 ， 识 别 出 常 见 的 串 行 结构 ， 并 对 其 进行 有 效 的 并 行 化 ， 使 其 能 够 利用 
多 个 核 。 但 是 ， 当 我 们 将 此 原则 应 用 于 更 复杂 的 串 行 程序 时 ， 识 别 结构 将 变 得 越 来 越 困 难 ， 转 换 
为 事先 定义 好 的 高 效 并 行 化 方法 也 变 得 越 来 越 不 可 能 。 | 

因此 ， 我们 不 能 再 继续 简单 地 编写 串 行程 序 ， 我 们 必须 编写 并 行程 序 来 发 据 多 核 处 理 器 的 潜 
在 性 能 。 


1.4 怎样 编写 并 行程 序 

对 于 这 个 问题 ， 有 多 种 可 能 的 解决 方案 。 大 部 分 方案 的 基本 思想 都 是 将 要 完成 的 任务 分 配给 
各 个 核 。 有 两 种 广泛 采用 的 方法 : 任务 并 行 和 数据 并 行 。 任 务 并 行 是 指 将 待 解决 问题 所 需要 执行 
的 各 个 任务 分 配 到 各 个 核 上 执行 。 而 数据 并 行 是 指 将 待 解决 问题 所 需要 处 理 的 数据 分 配给 各 个 
核 ， 每 个 核 在 分 配 到 的 数据 集 上 执行 大 致 相似 的 操作 。 

举例 来 说 ， 假 如 P 教授 进行 “英国 文学 调查 ”的 授课 ， 她 有 100 个 学 生 ， 还 有 4 个 助教 
(Teaching Assistant，TA) ，A 先生 、B 女士 、C 先生 、D 女士 。 学 期 结束 的 时 候 ， 要 进行 一 次 期 末 
测试 ， 这 个 测试 中 包括 5 道 题 。 为 了 给 学 生 打 分 ，P 教授 和 她 的 助教 可 能 有 如 下 两 种 批改 方案 : 
每 人 负责 给 一 个 问题 打分 ; 或 者 将 学 生 分 成 5 组， 每 人 负责 一 组 ， 即 20 个 学 生 。 

在 这 两 种 方案 中 , P 教授 和 她 的 助教 充当 核 的 角色 。 第 一 种 方案 可 以 认为 是 任务 并 行 的 例 
子 。 有 5 个 任务 需要 执行 ， 即 给 第 一 个 问题 打分 ， 给 第 二 个 问题 打分 …… 给 第 五 个 问题 打分 。 当 


[5] 然 ， 每 个 打分 人 审阅 的 题目 是 不 一 样 的， 比如 : 第 一 个 问题 是 关于 莎士比亚 的 ， 第 二 个 问题 可 能 


是 关于 米利 托 的 ， 所 以 了 教授 和 她 的 助教 是 在 “执行 不 同 的 指令 ”。 
第 二 种 方案 可 以 认为 是 数据 并 行 的 例子 。“ 数 据 ” 是 学 生 的 卷子 ， 在 不 同 的 核 (打分 人 ) 之 
间 平 分 ， 每 个 核 执 行 大 致 相似 的 打分 “指令 ”。 
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我 们 在 1. 3 节 中 提 到 过 计算 全 局 总 和 的 例子 ， 其 中 第 一 部 分 可 以 认为 是 数据 并 行 的 一 个 实 
例 。 数 据 是 通过 Compute_next_value 计算 得 到 的 值 ， 每 个 核 在 所 赋予 的 数据 集 上 执行 大 致 相 
同 的 操作 : 通过 调用 Compute_next_value 获取 所 需 的 数据 ， 再 将 数据 累加 求 部 分 和 。 计 算 全 
局 总 和 例子 的 第 二 部 分 可 以 认为 是 任务 并 行 的 实例 ， 总 共有 两 个 任务 : 一 个 任务 由 master 核 执 
行 ， 负 责 接收 从 其 他 核 传 来 的 部 分 和 ， 并 累加 部 分 和 ; 另 一 个 任务 由 其 他 核 执行 ,负责 将 自己 计 
算得 到 的 部 分 和 传递 给 master 核 。 

当 各 个 核 独立 工作 时 ， 编 写 并 行程 序 其 实 与 串 行程 序 差 不 多 。 但 当 核 之 间 需 要 协调 工作 时 ， 
就 变 得 复杂 了 。 在 第 二 个 计算 全 局 总 和 的 例子 中 ， 尽 管 图 中 的 树 形 结构 很 容易 理解 ， 但 实际 编写 
代码 却 比较 复杂 。 详 见习 题 1. 3 和 习题 1.4。 不 幸 的 是 ， 核 之 间 需 要 通信 的 情况 是 很 常见 的 。 

在 两 个 计算 全 局 总 和 的 例子 中 ， 协 调 过 程 包括 通信 : 一 个 或 多 个 核 将 自己 的 部 分 和 结果 发 送 
给 其 他 的 核 。 同 时 ,该 例子 也 反映 了 协调 工作 应 该 负载 平衡 ， 虽 然 没 有 给 出 明确 的 公式 ,但 很 明 
显 ， 我 们 希望 给 每 个 核 分 配 大 致 相同 数目 的 数据 来 计算 。 如 果菜 个 核 必须 要 计算 大 部 分 数据 ， 那 
么 其 他 的 核 势 必 比 负载 大 的 核 早 完成 任务 ， 它们 的 计算 资源 就 会 浪费 。 

第 三 种 类 型 的 协调 工作 是 同步 。 例 如 ,假设 需要 累加 的 数据 不 再 是 通过 计算 给 出 ， 而 是 从 标 
准 输入 (stdin) 中 读 取 数据 。 设 x 是 一 个 数组 ， 存 放 被 master 核 读 人 的 数据 : 

if (1m the master Corel) 

for (my-i = 0:; my.i < Nn; my-i++) 
scanf("%lf", gx[my-i]).; 
在 大 多 数 系统 中 ， 核 之 间 不 会 自动 地 同步 ， 而 是 每 个 核 在 自己 的 空间 中 工作 。 在 这 个 例子 中 ， 在 
master 核 初始 化 完 x 数组 并 使 数组 能 够 被 其 他 核 访问 之 前 ， 不 希望 其 他 核 开 始 工作 。 因 此 其 他 核 
在 开始 计算 部 分 和 之 前 ， 需 要 等 待 : 


for (my-i = my-first-i: my_i < my-l1ast-i; my-i++) 
my-Sum += x[my.i]: 


需要 在 初始 化 x 数组 和 计算 部 分 和 之 间 加 入 一 个 同步 点 : 


Synchronize.corest(); 


这 里 的 想法 是 ， 每 个 核 会 在 Synchronize_cores 函数 处 等 待 ， 直 到 所 有 的 核 都 进入 该 函数 一 一 特 
别 是 ， 必 须要 等 到 master 核 进 入 该 函数 。 

目前 ， 功 能 最 强大 的 并 行程 序 是 通过 显 式 的 并 行 结构 来 编写 的 ， 即 用 扩展 C 或 者 扩展 C++ 
编写 的 。 这 些 程序 包含 了 显 式 的 并 行 指令 : 0 号 核 执行 0 号 任务 ，! 号 核 执行 1 号 任务 …… 所 有 核 
之 间 的 同步 等 ， 因 而 这 种 程序 通常 很 复杂 。 此 外 ， 新 一 代 核 的 复杂 性 导致 即使 编写 只 在 单个 核 上 
运行 的 代码 ， 也 要 特别 注意 。 

当然 ， 仍 然 可 以 有 其 他 方法 来 编写 并 行程 序 (如 更 高 级 的 语言 ) ， 但 这 种 高 层次 的 开发 语言 
更 趋向 于 牺牲 部 分 性 能 来 降低 开发 的 难度 。 


1.5 我 们 将 做 什么 


接 下 来 ,我 们 将 会 学 习 如 何 编写 显 式 并 行 的 程序 。 我 们 的 目标 是 : 学 会 利用 C 语言 和 C 语言 
的 三 个 不 同 扩展 ; 消息 传递 接口 (Message-Passing Interface，MPI) 、POSIX 线程 (POSIX threads ， 
Pthreads) 和 OpenMP 来 编写 基本 的 并 行程 序 。MPI 和 Pthreads 是 C 语言 的 扩展 库 ， 可 以 在 C 程 
序 中 使 用 扩展 的 类 型 定义 、 函 数 和 宏 ; 而 OpenMP 包含 了 一 个 扩展 库 以 及 对 C 编译 器 的 部 分 修改 。 
你 可 能 会 疑惑 : 为 什么 我 们 需要 学 习 C 语言 的 三 种 不 同 的 扩展 而 不 是 一 种 ? 问题 的 答案 与 这 
三 种 扩展 以 及 并 行 系统 都 相关 。 我 们 要 关注 的 两 种 主要 并 行 系统 是 : 共享 内 存 系统 和 分 布 式 内 存 
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系统 。 在 共享 内 存 系统 中 ， 各 个 核能 够 共享 访问 计算 机 的 内 存 ， 理 论 上 每 个 核能 够 读 、 写 内 存 的 
所 有 区 域 。 因 此 可 以 通过 检测 和 更 新 共享 内 存 中 的 数据 来 协调 各 个 核 。 相 反 ， 在 分 布 式 内 存 系统 
中 ， 每 个 核 都 拥有 自己 的 私有 内 存 ， 核 之 间 的 通信 是 显 式 的 ， 必 须 使 用 类 似 于 在 网 络 中 发 送 消息 
的 机 制 。 图 1-2 给 出 了 两 种 系统 的 示意 图 。Pthreads 和 OpenMP 是 为 共享 内 存 系统 的 编程 而 设计 的 ， 
它们 提供 访问 共享 内 存 的 机 制 ; 而 MPI 是 为 分 布 式 内 存 系 统 的 编程 而 设计 的 ， 它 提供 发 送 消息 的 
机 制 。 











图 1-2 a) 共享 内 存 系统 ; b) 分 布 式 内 存 系统 


但 是 ,为 什么 共享 内 存 系统 的 编程 方法 有 两 种 扩展 ? 这 是 因为 ，OpenMP 是 对 C 语言 相对 更 
高 层次 的 扩展 。 例 如 ， 它 能 够 通过 使 用 一 个 简单 的 指导 语句 


Sum = 0; 
for (i = 0; i < mn i++ 
x = Compute next.value(. . .): 
SUM += X; 
} 
将 累加 和 循环 并 行 化 ， 而 Pthreads 需要 做 与 例子 中 相似 的 操作 。 另 一 方面 ，Pthreads 提供 了 一 些 
在 OpenMP 中 不 可 用 的 协调 构造 。OpenMP 容易 将 很 多 程序 并 行 化， 而 Pthreads 提供 的 一 些 构造 ， 
增强 了 并 行 化 其 他 一 些 程序 的 能 力 。 


1.6 并发、 并行、 分布 式 


如 果 你 看 过 其 他 的 有 关 并 行 计算 的 书籍 ， 或 者 在 网 上 搜索 与 并 行 计算 相关 的 信息 ， 那 么 你 很 
可 能 会 遇 到 如 下 两 个 名 词 : 并 发 计算 (cocurrent computing) 和 分 布 式 计算 (distributed compu- 
ting) 。 尽 管 还 没有 对 并 行 (parallel) 、 分 布 式 〈distributed) 、 并 发 (cocurrent) 之 间 的 差别 形成 
统一 的 意见 ， 但 许多 作者 都 同意 它们 之 间 有 如 下 区 别 ; 

。 在 并 发 计算 中 ， 一 个 程序 的 多 个 任务 在 同一 个 时 段 内 可 以 同时 执行 [41]。 

。 在 并 行 计算 中 ， 一 个 程序 通过 多 个 任务 紧密 协作 来 解决 某 个 问题 。 

。 在 分 布 式 计 算 中 ， 一 个 程序 需要 与 其 他 程序 协作 来 解决 某 个 问题 。 

所 以 并 行程 序 和 分 布 式 程序 都 是 并 发 的 ， 但 某 些 程序 如 多 任务 操作 系统 也 是 并 发 的 ， 因 为 即 
使 它 运 行 在 单 核 机 器 上 ， 多 个 任务 也 能 在 同一 段 时 间 里 同时 执行 。 在 并 行程 序 和 分 布 式 程序 之 间 
没有 一 条 明确 的 分 界线 ,但 是 并 行程 序 往 往 同 时 在 多 个 核 上 执行 多 个 任务 ， 这 些 核 在 物理 上 紧密 
靠近 ， 或 者 共享 内 存 或 者 通过 高 速 网 络 相互 连接 。 另 一 方面 ， 分 布 式 程序 往往 更 加 “ 松 耦 合 "。 
任务 是 在 多 个 计算 机 上 执行 ， 这 些 计 算 机 之 间 相 隔 较 远 并 且 任 务 是 由 独立 创建 的 程序 来 完成 的 。 
举例 来 说 ,我 们 前 面 的 两 个 计算 数据 全 局 和 的 程序 是 并 行 的 ， 而 网 络 搜 索 程 序 是 分 布 式 的 。 


第 1 章 为 什么 要 并 行 计算 *7 


但 需要 注意 的 是 ， 这 些 术 语 之 间 的 区 别 并 没有 通用 的 约定 。 例 如 ， 许 多 作者 将 共享 内 存 程序 
看 做 “并 行 ”的 ， 而 将 分 布 式 内 存 程序 看 做 “分 布 式 ”的 。 正 如 书 名 所 暗示 的 ， 本 书 的 兴趣 在 
于 并 行程 序 ， 即 紧 耦 合 的 多 个 任务 协作 来 解决 某 个 问题 的 程序 。 


1.7 本 书 的 其 余部 分 

如 何 利用 本 书 来 帮助 我 们 编写 并 行程 序 ? 

首先 ， 如 果 你 对 高 性 能 感 兴趣 ， 不 管 编写 串 行程 序 还 是 并 行程 序 ， 你 都 需要 对 系统 的 硬件 和 
软件 有 所 了 解 。 在 第 2 章 中 ， 我 们 会 给 出 并 行 软件 和 硬件 的 一 个 回顾 。 为 了 理解 这 个 话题 ， 有 必 
要 对 串 行 软件 和 硬件 进行 回顾 。 第 2 章 给 出 的 资料 中 ， 有 些 在 刚 开 始 时 是 不 一 定 需 要 了 解 的 ， 所 
以 可 以 略 过 一 些 ， 并 在 阅读 后 面 的 章节 时 青 偶尔 回 过 头 来 参阅 。 

本 书 的 核心 部 分 是 第 3 章 到 第 6 章 ， 第 3、4、5 章 分 别 给 出 使 用 扩展 C 语言 的 MPI、Pthreads 
和 OpenMP 来 编写 并 行程 序 的 非常 基本 的 介绍 。 阅 读 这 些 章节 的 前 提 是 对 C 编程 语言 有 所 了 解 。 
我 们 尽力 使 这 些 章节 相互 独立 ， 因 此 可 以 按 任何 顺序 来 阅读 。 但 是 ， 为 了 使 得 章节 之 间 相 互 独 
立 ， 有 些 重复 是 有 必要 的 。 所 以 读 完 这 三 章 中 的 任意 一 章 时， 在读 其 他 两 章 时 可 以 适当 地 略 去 一 
些 重复 的 内 容 。 

第 6 章 将 总 结 前 面 章节 中 所 学 到 的 知识 ， 并 且 开 发 两 个 大 型 的 分 别 面 向 共享 内 存 系统 和 分 布 
式 内 存 系统 的 程序 。 即 便 只 读 完 第 3、4、5 章 中 的 一 章 ， 也 能 够 理解 这 两 个 程序 。 第 7 章 提 出 了 
一 些 对 进一步 研究 并 行 编程 的 建议 。 


1.8 警告 

在 开始 之 前 ， 我 们 先 提 醒 一 下 ， 仪 仪 凭 感觉 来 编写 并 行程 序 虽 然 很 诱 人 , 但 是 不 进行 细致 的 
设计 和 增 量 式 地 开发 程序 ， 肯 定 会 犯错 。 每 个 并 行程 序 包含 至 少 一 个 串 行程 序 。 因 为 需要 协调 多 00] 
个 核 的 行为 ， 所 以 编写 并 行程 序 肯 定 比 串 行 程序 更 加 复杂 ， 实 际 上 ， 是 非常 复杂 。 因 此 ， 所 有 设 
计 和 开发 并 行程 序 的 原则 都 远 比 开发 串 行 程序 的 原则 重要 。 


1.9 字体 约定 
我 们 将 在 文中 使 用 如 下 字体 ; 
。 程序 、 显 示 或 者 运行 内 容 使 用 代码 体 。 


A# This 1s a Short program */ 
#include <stdio.h> 


int maintint argc, char* argv[]) { 
printf("hello, world\n"),; 


return 0: 
1 


定义 是 在 正文 中 给 出 的 ， 定义 的 术语 将 用 黑体 标识 。 例 如 : 一 个 并 行程 序 能 够 利用 多 


个 核 。 
。 当 需 要 提 及 程序 开发 的 环境 时 ， 我们 一 般 指 的 是 UNIX 的 shel， 并 且 用 $ 表示 shell 的 提 
示 符 : 

$ gcc -9g -Wall ~-o hello helio.c 


。 阴 数 调用 的 语法 是 包含 一 个 样本 参数 列表 的 固定 参数 列表 。 例 如 ， 求 整数 绝对 值 函 数 
abs, 在 stdlib 库 中 有 如 下 语法 格式 : 


CD 





8“' 并 行程 序 设计 导论 


int abs(int x); /*# Returns absolute value of int x */ 


对 于 更 复杂 的 语法 结构 ， 我 们 使 用 尖 括号 < > 表示 必需 的 内 容 ， 而 方 括号 [ ] 表示 可 选 
的 内 容 , 例如 C 中 的 if 语句 有 如 下 的 语法 格式 : 


if ( <expression> ) 
<Statement1> 

[else 
<statement?>] 


这 说 明 ，if 语句 必须 有 一 个 在 括号 中 的 语句 ， 并 且 在 右 括号 后 面 需 要 跟 一 个 语句 。 这 个 语 
名 可 以 跟 一 个 else 子 句 ， 也 可 以 不 跟 。 但 是 如 果 跟 了 e1se， 那么 在 else 后 面 还 要 跟 一 
个 语句 。 


1. 10 小 结 


多 年 来 ， 我 们 一 直 享 受 着 处 理 器 速度 不 断 加 快 带 来 的 成 果 。 但 是 ， 由 于 物理 上 的 限制 ， 传 统 
处 理 器 性 能 提升 的 速度 不 断 降低 。 为 了 提高 处 理 器 的 能 力 ， 芯 片 制造 商 开 始 转向 多 核 集 成 电路 ， 
即 在 单 块 芯片 上 有 多 个 传统 处 理 器 的 集成 电路 。 

普通 的 串 行程 序 是 指 面向 单 核 处 理 器 的 、 不 用 利用 多 核 性 能 的 程序 。 并 行程 序 是 需要 利用 多 
个 核 的 程序 。 翻 译 程序 不 可 能 担负 起 将 所 有 的 串 行 程序 并 行 化 的 重任 。 作 为 软件 开发 人 员 ， 我 们 
需要 学 习 编 写 并 行程 序 。 

在 编写 并 行程 序 时 ， 我 们 需要 协调 各 个 核 的 工作 。 这 涉及 核 之 间 的 通信 、 负 载 平 衡 以 及 
同步 。 

在 本 书 中 ,我 们 将 学 习 如 何 编写 并 行程 序 ， 从 而 最 大 化 程序 的 性 能 。 我 们 将 使 用 C 语言 和 
MPI 、Pthreads 以 及 OpenMP。MPI 用 于 分 布 式 内 存 系统 的 编程 ， 而 Phreads 和 OpenMP 用 于 共享 内 
存 系统 的 编程 。 在 分 布 式 内 存 系统 中 ， 每 个 核 都 拥有 自己 的 私有 内 存 ， 而 在 共享 内 存 系统 中 ， 原 
则 上 每 个 核能 访问 每 个 内 存 区 域 。 

并 发 程序 是 指 多 个 任务 在 一 段 时 间 内 同时 执行 ， 而 并 行程 序 和 分 布 式 程序 的 多 个 任务 能 在 同 
一 时 刻 一 起 执行 。 并 行程 序 和 分 布 式 程序 之 间 没 有 非常 明确 的 区 别 ， 只 是 在 并 行程 序 中 ， 多 个 任 
务 是 相对 紧密 耦合 的 。 

并 行程 序 一 般 是 比较 复杂 的 ， 所 以 使 用 好 的 技术 来 开发 并 行程 序 是 非常 重要 的 。 


1. 11 习题 


1.1 为 求全 局 总 和 例子 中 的 my_first_i 和 my_1ast_i 推导 一 个 公式 。 需 要 注意 的 是 : 在 循环 中 ， 应 该 
给 各 个 核 分 配 数目 大 致 相同 的 计算 元 素 。 提 示 : 先 考 虑 n 能 被 p 整除 的 情况 。 

1.2 我 们 已 经 隐 含 地 假设 每 次 调用 Compute_next_value 函数 所 执行 的 工作 量 与 其 他 次 调用 Compute_ 
next_value 函数 执行 的 工作 量 大 臻 相同。 但是， 如 果 当 i= 上 时 调用 这 个 函数 的 时 间 是 当 i=0 时 调用 这 
个 函数 所 花 时 间 的 +1 倍 ， 即 如 果 第 一 次 (i =0) 调用 需要 2 毫秒 ,第 二 次 (i =1) 调用 需要 4 这 
秒 , 第 三 次 (i=2) 调用 需要 6 毫秒 ， 以 次 类 推 ， 那么 对 于 问题 1. 1， 你 该 如 何 回答 ? 

1.3 ”尝试 写 出 图 1-1 中 树 形 结构 求全 局 总 和 的 伪 代 码 。 假 设 核 的 数目 是 2 的 寡 (1、2、4、8 等 )。 提 示 : 
使 用 变量 divisor 来 决定 一 个 核 应 该 是 发 送 部 分 和 还 是 接收 部 分 和 ，di visor 的 初始 值 为 2， 并 且 每 
次 和 迭代 后 增 倍 。 使 用 变量 core_difference 来 决定 哪个 核 与 当前 核 合 作 ， 它 的 初始 值 为 1， 并 且 每 次 
迭代 后 增 倍 。 例 如 ， 在 第 一 次 欠 代 中 0 % divisor = 0, 1% divisor = 1， 所 以 0 号 核 负 责 接 收 
和 ，1 号 核 负 责 发 送 。 在 第 一 次 和 迭代 中 0 + core_difference =1,1-core difference = 0， 
所 以 0 号 核 与 工 号 核 在 第 一 次 迭代 中 合作 。 

1.4 作为 前 面 问 题 的 另 一 种 解法 ， 可 以 使 用 C 语言 的 位 操作 来 实现 树 形 结构 的 求全 局 总 和 。 为 了 了 解 它 是 


1.9 
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如 何 工 作 的 ， 写 下 核 的 二 进 制 数 编号 是 非常 有 帮助 的 ， 注 意 每 个 阶段 相互 合作 的 成 对 的 核 。 









































从 表 中 我 们 可 以 看 到 在 第 一 阶段 ， 每 个 核 与 其 二 进 制 编号 的 最 右 位 不 同 编号 的 核 配对 ， 在 第 二 阶 
段 与 其 二 进 制 编号 的 最 右 第 二 位 不 同 编号 的 核 配对 ， 第 三 阶段 与 其 二 进 制 编号 的 最 右 第 三 位 不 同 编号 
的 核 配 对 。 因 此 ， 如 果 在 第 一 阶段 有 二 进 制 掩 码 (bit mask) 001: 、 第 二 阶段 有 010: 、 第 三 阶段 有 
100: ， 那 么 可 以 通过 将 编号 中 对 应 掩 码 中 非 零 位 置 的 二 进 制 数 取 反 来 获得 配对 核 的 编号 ， 也 即 通过 异 
或 操作 或 者 ^ 操 作 。 

使 用 位 异 或 操作 或 者 左 移 操作 编写 伪 代码 来 实现 上 述 算法 。 

如 果 核 的 数目 不 是 2 的 蛤 (例如 3、5、6、7)， 那 么 在 习题 1. 3 或 者 习题 1. 4 中 编写 的 伪 代 码 还 能 运 

行 吗 ? 修改 伪 代 码 ， 使 得 在 核 数目 未 知 的 情况 下 仍然 能 运行 。 

在 下 列 情 况 中 ， 推 导 公 式 求 出 0 号 核 执 行 接收 与 加 法 操作 的 次 数 。 

a 最 初 的 求全 局 总 和 的 伪 代 码 。 

b. 树 形 结构 求全 局 总 和 。 

制作 一 张 表 来 比较 这 两 种 算法 在 总 核 数 是 2、4、8、…、1024 时 , 0 号 核 执 行 的 接收 与 加 法 操作 的 

次 数 。 

全 局 总 和 例子 中 的 第 一 部 分 (每 个 核对 分 配给 它 的 计算 值 求 和 )， 通 常 认为 是 数据 并 行 的 例子 ; 而 第 

一 个 求全 局 总 和 例子 的 第 二 个 部 分 (各 个 核 将 它们 计算 出 的 部 分 和 发 送 给 master 核 ，master 核 将 这 些 

部 分 和 再 累加 求 和 ) ， 认 为 是 任务 并 行 。 第 二 个 全 局 和 例子 中 的 第 二 部 分 (各 个 核 使 用 树 形 结构 累加 

它们 的 部 分 和 ) ， 是 数据 并 行 的 例子 还 是 任务 并 行 的 例子 ?为 什么 ? 

假如 系 里 的 老师 要 为 学 生 举 办 一 个 聚会 。 

a 在 准备 聚会 的 时 候 ， 如 何 分 配 各 种 任务 给 各 个 老师 ， 以 实现 任务 并 行 ? 设计 一 个 方案 使 得 各 种 任务 
能 够 同时 进行 。 

b. 我 们 希望 其 中 的 一 项 任务 是 清理 聚会 场地 ， 那 么 该 如 何 分 配 清扫 任务 以 实现 数据 并 行 ? 

c. 设计 一 个 任务 并 行 和 数据 并 行 相 结合 的 方案 来 准备 聚会 〈 如 果 教 师 的 工作 量 太 大 ， 可 以 让 助教 来 帮 
忙 )。 - 

写 一 篇 文章 来 描述 你 研究 方向 中 因 使 用 并 行 计算 而 获 益 的 事 。 大 致 地 描述 是 如 何 使 用 并 行 的 。 你 将 用 

到 任务 并 行 还 是 数据 并 行 ? 
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让 学 科 专 家 而 不 是 计算 机 科学 与 计算 机 工程 专家 编写 并 行程 序 是 完全 可 行 的 。 但 是 ， 为 了 编 
写 高 效 的 并 行程 序 ， 我 们 需要 对 底层 的 硬件 和 系统 软件 有 所 了 解 。 理 解 不 同类 型 并 行 软件 的 相关 
知识 是 有 用 的 ， 所 以 ， 本 章 将 简要 介绍 硬件 和 软件 方面 的 一 些 知识 ， 也 会 简略 介绍 如 何 评价 程序 
性 能 以 及 开发 并 行程 序 的 方法 。 在 本 章 的 末尾 ， 我 们 将 介绍 在 本 书 中 其 余部 分 涉及 的 开发 环境 、 
规则 以 及 一 些 假 设 。 

本 章 篇 幅 相 对 比较 长 ， 内 容 涵盖 也 比较 广泛 。 在 首次 阅读 时 ， 你 可 以 略 过 细节 ， 通 过 浏览 了 
解 本 章 的 内 容 。 在 阅读 后 面 的 章节 时 ， 如 果 对 某 个 概念 或 者 名 词 不 清楚 时 ， 可 以 再 回 到 本 章 查 
询 。 特 别 地 ， 在 2.2 节 中 除 2. 2. 1 节 外 的 大 部 分 材料 ， 以 及 2.3.1 节 和 2.3.3 节 的 内 容 ， 都 可 以 
先 跳 过 。 


2.1 背景 知识 


并 行 硬件 和 并 行 软件 是 从 传统 的 一 次 只 执行 单个 任务 的 串 行 硬 件 和 串 行 软件 中 发 展 出 来 的 。 
所 以 为 了 更 好 地 理解 并 行 系统 的 现状 ， 我 们 先 简略 地 了 解 一 下 串 行 系统 的 特性 。 


2.1.1 冯 : 诺 依 曼 结构 

“经 典 ” 的 冯 ， 诺 依 曼 结 构 包 括 主 存 、 中 央 处 理 单元 (Central Processing Unit，CPU) 处 理 器 
或 核 ， 以 及 主 存 和 CPU 之 间 的 互 连 结构 。 主 存 中 有 许多 区 域 ， 每 个 区 域 都 可 以 存储 指令 和 数据 。 
每 个 区 域 都 有 一 个 地 址 ， 可 以 通过 这 个 地 址 来 访问 相应 的 区 域 及 区 域 中 存储 的 数据 和 指令 。 

中 央 处 理 单元 分 为 控制 单元 和 算术 逻辑 单元 ( Arithmetic Logic Unit，ALU)。 控 制 单元 负责 决 
定 应 该 执行 程序 中 的 哪些 指令 ， 而 ALU 负责 执行 指令 。CPU 中 的 数据 和 程序 执行 时 的 状态 信息 
存储 在 特殊 的 快速 存储 介质 中 ， 即 寄存 器 。 控 制 单元 有 一 个 特殊 的 寄存 器 ， 叫 做 程序 计数 器 ， 用 
来 存放 下 一 条 指令 的 地 址 。 

指令 和 数据 通过 CPU 和 主 存 之 间 的 互 连 结构 进行 传输 。 这 种 互 连 结构 通常 是 总 线 ， 总 线 中 包 
括 一 组 并 行 的 线 以 及 控制 这 些 线 的 硬件 。 汉 . 诺 依 曼 机 器 一 次 执行 一 条 指令 ， 每 条 指令 对 一 个 数 
据 进 行 操作 。 见 图 2-1。 

当 数 据 或 指令 从 主 存 传 送 到 CPU 时 ， 我们 称 数 据 或 指令 从 内 存 中 取出 或 者 读 出 。 当 数据 或 指 
令 从 CPU 传送 到 主 存 中 时 ， 我们 称 数 据 或 指令 写 入 或 者 存 入 内 存 中 。 主 存 和 CPU 之 间 的 分 离 称 
为 冯 ， 诺 依 曼 瓶颈。 这 是 因为 互 连 结构 限定 了 指令 和 数据 访问 的 速率 ,程序 运行 所 需要 的 大 部 分 
数据 和 指令 被 有 效 地 与 CPU 隔离 开 。 到 2010 年 ，CPU 执行 指令 的 速度 是 从 主 存 中 取 指 令 速 度 的 
100 多 们 。 

为 了 更 好 地 理解 这 个 问题 ， 我 们 可 以 想象 一 个 大 型 企业 在 某 个 镇 上 有 一 个 工厂 (CPU), 在 
另 一 个 镇 上 有 一 个 仓库 〈 主 存 ) 。 在 工厂 和 仓库 之 间 只 有 一 条 双 车 道 公 路 。 生 产 产品 所 需 的 原 材 
料 都 存储 在 仓库 中 ， 所 有 的 制 成 品 在 交付 给 客户 前 也 存储 在 仓库 中 。 如 果 产 品 生 产 的 速度 远大 于 
原材料 和 产品 运输 的 速度 ， 那 么 就 会 出 现 交通 堵塞 ， 工 厂 的 工人 和 机 器 要 么 时 不 时 地 空闲 ， 要 人 么 
就 降低 生产 速度 。 


第 2 章 并行 硬件 和 并 行 软件 * 1 





图 2-1 冯 : 诺 依 曼 结构 


为 了 解决 加“ 诺 依 曼 瓶 颈 ， 或 者 更 概括 地 说 ， 提 高 CPU 的 性 能 ， 计 算 机 工程 师 和 科学 家 已 经 
多 次 尝试 对 基本 的 冯 “' 诺 依 曼 结构 进行 修改 。 在 讨论 这 些 修 改 前 ， 让 我 们 先 花 点 时 间 讨 论 在 冯 ， 
诺 依 曼 系统 和 现在 系统 上 运行 的 软件 。 


2. 1.2 进程 、 多 任务 及 线程 
操作 系统 (Operating System，0S) 一 种 用 来 管理 计算 机 的 软件 和 硬件 资源 的 主要 软件 。 它 决 
定 什么 程序 能 运行 以 及 什么 时 候 运行 。 它 控制 运行 中 程序 的 内 存 分 配 以 及 对 诸如 硬盘 、 网 卡 等 外 
设 的 访问 。 
当 用 户 运行 一 个 程序 时 ， 操 作 系统 创建 一 个 进程 。 进 程 是 运行 着 的 程序 的 一 个 实例 。 一 个 进 
程 包括 如 下 实体 : 
。 可 执行 的 机 器 语言 程序 。 
。 一 块 内 存 空间 ， 包 括 可 执行 代码 ， 一 个 用 来 跟踪 执行 函数 的 调用 栈 、 一 个 堆 ， 以 及 一 些 其 
他 内 存 区 域 。 
。 操作 系统 分 配给 进程 的 资源 描述 符 ， 如 文件 描述 符 。 
。 安全 信息 ， 例 如 阐述 进程 能 够 访问 哪些 硬件 和 软件 的 信息 。 
。 进程 状态 信息 ， 例 如 进程 是 否 就 绪 还 是 等 待 某 些 资源 、 寄 存 器 内 容 ， 以 及 关于 进程 存储 空 
间 的 信息 。 
大 多 数 现 代 操 作 系 统 都 是 多 任务 的 。 这 意味 着 操作 系统 提供 对 同时 运行 多 个 程序 的 支持 。 这 
对 于 单 核 系统 也 是 可 行 的 ， 因 为 每 个 进程 只 运行 一 小 段 时 间 ( 几 毫秒 )， 亦 即 一 个 时 间 片 。 在 一 
个 程序 执行 了 一 个 时 间 片 的 时 间 后 ， 操 作 系 统 就 切换 执行 其 他 程序 。 一 个 多 任务 操作 系统 能 够 在 
1 分 钟 内 多 次 切换 运行 的 程序 ,即使 切换 进程 花费 相对 较 长 的 时 间 。 
在 一 个 多 任务 操作 系统 中 ， 如 果 一 个 进程 需要 等 待 某 个 资源 ， 例 如 需要 从 外 部 的 存储 器 读数 
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据 ， 它 会 阻塞 。 这 意味 着 ， 该 进程 会 停止 运行 ， 操 作 系统 可 以 运行 其 他 进程 。 但 是 ， 许 多 程序 能 
够 继续 工作 即使 当前 运行 的 部 分 必须 等 待 某 些 资源 。 例 如 ; 航班 预定 系统 在 一 个 用 户 因为 等 待 座 
位 图 而 阻塞 时 ， 可 为 另 一 个 用 户 提供 可 用 的 航线 查询 。 线 程 为 程序 员 提供 了 一 种 机 制 ， 将 程序 划 
分 为 多 个 大 致 独立 的 任务 ， 当 某 个 任务 阻塞 时 能 执行 其 他 任务 。 此 外 ， 在 大 多 数 系统 中 ， 线 程 间 
的 切换 比 进程 间 的 切换 更 快 。 因 为 线程 相对 于 进程 而 言 是 “ 轻 量 级 ”的 。 线程 包含 在 进程 中 ， 所 
以 线程 可 以 使 用 相同 的 可 执行 代码 ， 共 享 相同 的 内 存 和 相同 的 WO 设备 。 实 际 上 ， 当 两 个 线程 共 
属于 一 个 进程 时 ， 它 们 共享 进程 的 大 多 数 资源 。 它 们 之 间 最 大 的 差别 是 各 自 需 要 一 个 私有 的 程序 
计数 器 和 函数 调用 栈 ， 使 它们 能 够 独立 运行 。 


如 果 进 程 是 执行 的 “主线 程 "， 其 他 线 线程 
程 由 主线 程 启动 和 停止 ， 那 么 我 们 可 以 设想 。 进程 
进程 和 它 的 子 线程 如 下 进行 ， 当 一 个 线程 开 
始 时 ， 它 从 进程 中 派生 (fork) 出 来 ; 当 一 到 直 


个 线程 结束 ， 它 合并 (join) 到 进程 中 ， 如 
图 2-2 所 示 。 


2.2 对 冯 “' 诺 依 曼 模型 的 改进 
正如 我 们 前 面 提 到 的 ， 第 一 台电 子 数字 计算 机 是 在 20 世纪 40 年 代 诞生 的 ,计算 机 科学 家 和 


计算 机 工程 师 对 基本 的 冯 ' 诺 依 曼 结构 已 经 做 了 很 多 改进 。 许 多 改进 都 是 为 了 解决 冯 ，. 诺 依 坚 瓶 
颈 ， 也 有 许多 改进 只 是 为 了 使 CPU 更 快 。 本 节 中 ， 我 们 会 看 到 三 种 改进 措施 : 缓存 ( caching)、 


图 2-2 一 个 进程 与 两 个 线程 


Hg 虚拟 存储 器 (或 虚拟 内 存 ) 、 低 层次 并 行 。 


2.2.1 Cache 基础 知识 

缓存 是 解决 冯 : 诺 依 曼 瓶 颈 而 最 广泛 使 用 的 方法 之 一 。 为 了 理解 缓存 背后 的 思想 ， 我 们 再 来 
回忆 前 面 的 例子 。 一 个 大 型 企业 在 某 个 镇 上 有 一 个 工厂 (CPU ) ， 在 另 一 个 镇 上 有 一 个 仓库 ( 主 
存 )。 在 工厂 和 仓库 之 间 只 有 一 条 双 车 道 公路 。 有 许多 方法 可 以 解决 工厂 和 仓库 之 间 的 原材料 和 
制 成 品 运输 难题 。 其 中 之 一 是 加 宽 公 路 ， 另 一 个 方法 是 迁移 工厂 或 者 仓库 ， 或 者 建立 一 个 统一 的 
工厂 和 人 仓库。 缓存 结合 了 这 两 种 方法 。 不 再 是 一 次 传输 一 条 指令 或 者 一 个 数据 ， 而 是 将 互 连 通路 
加 宽 ， 使 得 一 次 内 存 访问 能 够 传送 更 多 的 数据 或 者 更 多 的 指令 。 而 且 ， 不 再 是 将 所 有 的 数据 和 指 
令 存储 在 主 存 中 ， 可 以 将 部 分 数据 块 或 者 代码 块 存储 在 一 个 靠近 CPU 寄存 器 的 特殊 存储 器 里 。 

一 般 来 说 ， 对 高 速 缓冲 存储 器 (cache， 简 称 缓存 ) 的 访问 时 间 比 其 他 存储 区 域 的 访问 时 间 
短 。 在 本 书 中 ， 当 谈 到 缓存 时 ， 一般 指 的 是 CPU 缓存 (CPU Cache)。CPU Cache 是 一 组 相 比 于 
主 存 ，CPU 能 更 快速 地 访问 的 内 存 区 域 。CPU Cache 位 于 与 CPU 同一 块 的 芯片 或 者 位 于 其 他 芯片 
上 , 但 比 普 通 的 内 存 芯 片 能 更 快 地 访问 。 

有 了 Cache 后 ， 一 个 很 明显 的 问题 是 什么 样 的 数据 和 指令 能 够 存储 在 Cache 中 。 通 用 的 准则 
基于 下 面 的 原理 : 程序 接 下 来 可 能 会 用 到 的 指令 和 数据 与 最 近 访 问 过 的 指令 和 数据 在 物理 上 是 邻 
近 存 放 的 。 在 执行 完 一 条 指令 后 ， 程 序 通常 会 执行 下 一 条 指令 。 同 样 ， 当 程序 访问 一 个 内 存 区 域 
后 ， 通 常会 访问 物理 位 置 靠近 的 下 一 个 区 域 。 一 个 例子 是 在 使 用 数组 时 ， 考 虑 下 面 的 循环 : 

float zf1000]; 

i 00; 

for (i = 0; i < 1000: i++) 


sum += z[ji]; 


数组 在 内 存 中 是 连续 分 配 的 ， 所 以 存储 z[11] 数据 的 内 存 区 域 紧 接 在 存储 z[0] 的 内 存 区 域 后 
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面 。 因 此 ， 只 要 1《999 ， 在 读 完 z[ i] 的 数据 之 后 总 是 立即 读 z[ i +1] 的 数据 。 

程序 访问 完 一 个 存储 区 域 往往 会 访问 接 下 来 的 区 域 ， 这 个 原理 称 为 局 部 性 。 在 访问 完 一 个 内 
存 区 域 (指令 或 者 数据 ) ， 程 序 会 在 不 久 的 将 来 (时 间 局 部 性 ) 访问 邻近 的 区 域 (空间 局 部 性 ) 。 

为 了 运用 局 部 性 原理 ， 系 统 使 用 更 宽 的 互 连 结构 来 访问 数据 和 指令 。 也 就 是 : 一 次 内 存 访问 
能 存 取 一 整 块 代码 和 数据 ， 而 不 只 是 单条 指令 和 单条 数据 。 这 些 块 称 为 高 速 缓存 块 或 者 高 速 缓存 
行 。 一 个 典型 的 高 速 缓存 行 能 存储 8 ~ 16 倍 单个 内 存 区 域 的 信息 。 在 我 们 的 例子 中 ， 如 果 一 个 高 
速 缓存 行 可 以 存放 16 个 浮 点 数 ， 当 执行 sum + =zf0] 时 ， 系 统 可 能 把 数组 z 最 开始 的 16 个 元 
素 : z[0]、z[1]、…、z[15] 从 主 存 读 到 Cache 中 。 因 此 ， 在 后 面 的 15 次 加 法 运算 中 ,需要 
使 用 的 数据 已 经 在 Cache 中 。 

从 概念 上 ， 很 容易 把 CPU Cache 认为 是 单一 结构 ， 但 实际 上 ，Cache 分 为 不 同 的 层 (level)。 
第 一 层 (L1) 最 小 但 最 快 ， 更 高 层 Cache (L2 、L3 、…) 更 大 但 相对 较 慢 。2010 年 ， 大 多 数 系 统 
拥有 至 少 两 层 Cache， 有 三 层 Cache 是 非常 普遍 的 。Cache 通常 是 用 来 存储 速度 较 慢 的 存储 器 中 信 
息 的 副本 ， 可 以 认为 低层 Cache 〈 更 快 、 更 小 ) 是 高 层 Cache 的 Cache。 所 以 ,一 个 变量 存储 在 
Ll Cache 中 ， 也 会 存储 在 L2 Cache 中 。 但 是 ， 有 些 多 层 Cache 不 会 复制 已 经 在 其 他 层 Cache 中 存 
在 的 信息 。 对 于 这 种 Cache，L1 Cache 中 的 变量 不 会 存储 在 其 他 层 Cache 中 ， 但 会 存储 在 主 存 中 。 

当 CPU 需要 访问 指令 或 者 数据 时 ， 它 会 沿 着 Cache 的 层次 结构 向 下 查询 : 首先 查询 Ll 
Cache， 接 着 L2 Cache， 以 此 类 推 。 最 后 ， 如 果 Cache 中 没有 所 需要 的 信息 ， 就 会 访问 主 存 。 当 向 
Cache 查询 信息 时 ， 如 果 Cache 中 有 信息 ， 则 称 为 Cache 命中 或 者 命中 ; 如 果 信 息 不 存在 ， 则 称 
为 Cache 缺失 或 者 缺失 。 命 中 和 缺失 是 相对 Cache 层 而 言 的 。 例 如 ， 当 CPU 试图 访问 某 个 变量 
时 ， 很 可 能 Ll Cache 缺失 ， 而 L2 Cache 命中 。 

注意 ， 存 储 器 访问 的 术语 读 (read) 和 写 (write) 也 适用 于 Cache， 例 如 我 们 可 以 从 L2 
Cache 中 读 一 条 指令 ， 也 可 以 向 Ll Cache 写 数据 。 

当 CPU 尝试 读数 据 或 者 指令 时 ， 如 果 发 生 Cache 缺失 ， 那 么 就 会 从 主 存 中 读 出 包含 所 需 信息 
的 整个 高 速 缓存 块 。 这 时 CPU 会 阻塞 ， 因 为 它 需 要 等 待 速度 相对 较 慢 的 主 存 : 处 理 器 可 以 停止 执 
行当 前 程序 的 指令 ， 直 到 从 主 存 中 取出 所 需 的 数据 或 者 指令 。 例 如 ， 当 我 们 读 z[0] 时 ， 处 理 器 
会 阻塞 直到 包括 z[0] 的 高 速 缓存 块 从 主 存 传 送 到 Cache 中 。 

当 CPU 向 Cache 中 写 数 据 时 ，Cache 中 的 值 与 主 存 中 的 值 就 会 不 同 或 者 不 一 致 〈inconsis- 
tent) 。 有 两 种 方法 来 解决 这 个 不 一 致 性 问题 。 在 写 直达 ( write-through ) Cache 中 ， 当 CPU 向 
Cache 写 数据 时 ， 高 速 缓存 行 会 立即 写 入 主 存 中 。 在 写 回 (write-back) Cache 中 ， 数 据 不 是 立即 
更 新 到 主 存 中 ， 而 是 将 发 生 数据 更 新 的 高 速 缓存 行 标 记 成 脏 (dirty ) 。 当 发 生 高 速 缓存 行 灰 换 时 ， 
标记 为 脏 的 高 速 缓存 行 被 写 人 主 存 中 。 


2.2.2 Cache 映射 

在 Cache 设计 中 ， 另 一 个 问题 是 高 速 缓存 行 应 该 存储 在 什么 位 置 。 当 从 主 存 中 取出 一 个 高 速 
缓存 行 时 ， 应 该 把 这 个 高 速 缓存 行 放置 到 Cache 中 的 什么 位 置 ? 这 个 问题 的 答案 因 系 统 而 异 。 一 
个 极端 是 全 相 联 (fully associative) Cache， 每 个 高 速 缓存 行 能 够 放置 在 Cache 中 的 任意 位 置 。 另 
一 个 极端 是 直接 映射 (directed mapped) Cache， 每 个 高 速 缓存 行 在 Cache 中 有 唯一 的 位 置 。 处 于 
两 种 极端 中 间 的 方案 是 n 路 组 相 联 (n-way set associated)。 在 n 路 组 相 联 Cache 中 ， 每 个 高 速 组 
存 行 都 能 放置 到 Cache 中 个 不 同 区 域 位 置 中 的 一 个 ,。 例如， 在 2 路 组 相 联 Cache 中 ， 每 个 高 速 组 
存 行 可 以 映射 到 2 个 位 置 中 的 一 个 。 

假设 主 存 有 16 行 ， 分 别 用 0 ~15 标记 ，Cache 有 4 行 ， 用 0 ~3 标记 。 在 全 相 联 映射 中 ， 主 存 
中 的 0 号 行 能 够 映射 到 Cache 中 的 0、1、2、3 任意 一 行 。 在 直接 映射 Cache 中 ， 可 以 根据 主 存 中 
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高 速 缓 存 行 的 标记 值 除 以 4 求 余 ， 获 得 在 Cache 中 的 索引 。 央 此 主 存 中 0、4、8 号 行 会 映射 到 
Cache 的 0 号 行 ， 主 存 中 的 1、5、9 号 行 映射 到 Cache 的 1 号 行 ， 以 此 类 推 。 在 2 路 组 相 联 Cache 
中 ,将 Cache 分 成 两 组 ，0 号 行 和 1 号 行 构成 一 个 组 ， 称 为 0 号 组 ; 2 号 行 和 3 号 行 构成 另 一 个 
组 ， 称 为 1 号 组 。 根据 主 存 中 行 的 标记 对 2 取 模 从 而 获得 Cache 中 组 的 索引 号 。 主 存 的 0 号 行 可 
以 映射 到 Cache 中 第 0 组 中 的 0 号 行 或 者 1 号 行 。 详 见 表 2-1。 

































































表 2-1 将 16 行 的 主 存 映 射 到 4 行 的 Cache 上 
高 速 缓存 中 的 位 置 
内 存 索引 
全 相 联 直接 映射 2 路 组 相 联 
0 0, 1, 2 或 3 0 0 或 1 
| 1 2 或 3 
2 0，1，2 或 3 2 0 或 1 
3 0，1, 2 或 3 3 2 或 3 
4 0, 1, 2 或 3 0 0 或 1 
5 0,， 1, 2 或 3 1 2 或 3 
6 0，1, 2 或 3 2 0 或 1 
7 0,，1, 2 或 3 3 2 或 3 
8 0, 1, 2 或 3 0 0 或 1 
9 0, 1, 2 或 3 1 2 或 3 
10 0，,，1, 2 或 3 2 0 或 1 
11 | 
12 0, 1, 2 或 3 0 0 或 1 
13 0, 1, 2 或 3 1 2 或 3 
14 0,， 1, 2 或 3 2 | 0 或 1 
15 TT 0, 1, 2 或 3 3 2 或 3 














一 | 








当 内 存 中 的 行 〈 多 于 一 行 ) 能 被 映射 到 Cache 中 的 多 个 不 同位 置 〈 全 相 联 和 路 组 相 联 ) 
时 ， 需 要 决定 蔡 换 或 者 驱逐 Cache 中 的 哪 一 行 。 在 前 面 的 2 路 组 相 联 的 例子 中 ， 假 设 主 存 中 的 
0 号 行 已 存储 在 Cache 的 0 号 行 ， 主 存 中 的 2 号 行 已 存储 在 Cache 的 1 号 行 ， 那 么 主 存 的 4 号 行 


ED 应 该 存储 在 哪里 呢 ? 最 常用 的 替换 方案 是 最 近 最 少 使 用 (least recently used) 。 顾 名 思 义 ， 


Cache 记录 各 个 块 被 访问 的 次 数 ， 蔡 换 最 近 访问 次 数 最 少 的 块 。 如 果 近 来 主 存 的 0 号 行 比 2 号 
行 访问 的 更 多 ， 那么 2 号 行 在 就 会 被 替换 出 Cache， 它 在 原来 Cache 的 位 置 就 被 替换 成 用 来 存 
储 4 号 主 存 行 。 
2.2.3 Cache 和 程序 ; 一 个 实例 

非常 重要 的 一 点 是 : CPU Cache 是 由 系统 硬件 来 控制 的 ， 而 编程 人 员 并 不 能 直接 决定 什么 数 
据 和 什么 指令 应 该 在 Cache 中 。 但 是 ， 了 解 空间 局 部 性 和 时 间 局 部 性 原理 可 以 让 我 们 对 Cache 有 
些许 间接 的 控制 。 例 如 ，C 语言 以 “ 行 主 序 ” 来 存储 二 维 数组 。 尽 管 二 维 数组 看 上 去 是 一 个 矩形 
块 ， 但 是 内 存 是 巨大 的 一 维 数组 。 在 行 主 序 存储 模式 下 ， 先 存储 二 维 数组 的 第 一 行 ， 接 着 第 二 
行 ， 以 次 类 推 。 下 面 的 两 段 代码 中 ,第 一 个 嵌 套 循环 比 第 二 个 嵌 套 循环 有 更 好 的 性 能 ， 因 为 它 顺 
序 访问 二 维 数组 中 的 数据 。 
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double ALMAX][MAX]，Xx[MAX]，yLMAX]; 
/x Initialize A and x, assign y = 0 */ 


js First pair of J00p5 */ 

for (i = 0; i < MAX: j++) 
for (j = 0; j < MAX;, j++) 
y[i] += ACLiJLj Jx*x[j]; 


/x Assign y=0*/ 
/x Second pair of loops */ 
for (j = 0; j < MAX; j++) 
for (i = 0; i < MAX; i++) 
y[i] += Ari][j]sxrj]i; 


为 了 更 好 地 理解 ， 假 设 MAX 等 于 4， 那 么 数组 A 中 元 素 的 存储 位 置 为 : 


高 速 缓存 行 数组 A 中 的 元 素 
0 ArI0lI0l | AI | Arolr2] A [0] [3] 
1 Arll][0l | Al | AU]r2] A [1] [3] 
2 A [2] [0] AI2] [1] | A[2] [2] A [2] [3] 
3 A [3] [0] A [3] [1] A [3] [2] A [3] [3] 
所 以 ，A[0][I] 存 储 在 A[0][0] 的 后 面 ， 而 A[1][0] 存 储 在 A[0][3] 的 后 面 。 

假设 刚 开始 时 ，Cache 中 没有 A 数组 的 任何 元 素 ， 一 个 高 速 缓存 行 可 以 存放 A 的 4 个 元 素 ， 
并 且 A[0][0] 是 高 速 缓存 行 中 的 第 一 个 元 素 。 最 后 , 假设 Cache 是 直接 映射 的 ， 只 能 存储 A 数组 
的 8 个 元 素 ， 即 两 个 高 速 缓存 行 (我们 不 关注 x 和 y)。 

两 个 循环 都 尝试 首先 访问 A[0][0] ， 因 为 它 不 在 Cache 中 ， 所 以 这 将 导致 一 次 Cache 缺失 ， 
然后 系统 将 包含 A[0][0]、A[0][1] 、A[0][2] 、A[0][3] 的 行 从 内 存 中 读 出 并 写 和 人 Cache 中 。 
第 一 个 循环 接 下 来 会 依次 访问 AL0][1]、AL[L0][2]、A[0][3]， 它 们 都 在 Cache 中 ， 而 下 一 次 
Cache 缺失 就 会 发 生 在 代码 访问 AL1][0] 的 时 候 。 按 照 上 面 的 分 析 ， 我 们 可 以 看 到 第 一 个 循环 在 
访问 数组 A 的 元 素 时 ， 总 共 发 生 4 次 Cache 缺失 ， 每 行 发 生 一 次 。 值 得 注意 的 是 ， 我 们 假想 的 
Cache 只 能 存储 两 个 高 速 缓存 行 ， 即 8 个 元 素 ， 当 读 第 三 行 的 第 一 个 元 素 和 第 四 行 的 第 一 个 元 素 
时 ，Cache 中 已 存在 的 行 必须 被 替换 出 去 。 一 旦 某 行 被 替换 出 去 ,第 一 个 循环 就 不 会 再 次 访问 该 
行 的 元 素 。 

在 将 第 一 行 元 素 读 出 并 写 人 Cache 中 后 ， 第 二 个 循环 需要 访问 A[1][0]、A[2]10]、A[3] 
[0] ,但 是 它们 都 不 在 Cache 中 。 所 以 下 面 三 次 访问 A 都 将 导致 Cache 缺失 。 此 外 ， 因 为 Cache 比 
较 小 , 读 AL21[0] 和 A[3][0] 会 导致 Cache 中原 有 的 行 被 替换 出 去 。 因 为 AL2][0] 在 2 号 行 中 ， 
读 该 行 会 导致 0 号 高 速 缓存 行 被 替换 出 去 ， 而 读 A[3][0] 会 导致 1 号 高 速 缓存 行 被 替换 出 去 。 在 
执行 完 一 次 内 部 循环 后 ， 要 访问 A[L0][1], 但 它 原来 所 在 的 0 号 高 速 缓存 行 已 经 被 替换 出 去 了 。 
所 以 我 们 可 以 看 到 ， 每 次 读 A 的 元 素 ， 就 会 发 生 一 次 Cache 缺失 ， 所 以 第 二 个 循环 总 共 发 生 16 次 
缺失 。 

因此 ， 我 们 可 以 预测 第 一 个 嵌 套 循环 比 第 二 个 运行 速度 快 。 在 实际 运行 的 时 候 ， 当 MAX = 
1000 ， 第 一 个 几 套 循环 的 运行 速度 近 3 倍 快 于 第 二 个 骨 套 循环 。 

2.2.4 虚拟 存储 器 


Cache 使 得 CPU 快速 访问 主 存 中 的 指令 和 数据 变 成 可 能 。 但 是 ， 如 果 运 行 一 个 大 型 的 程序 ， 
或 者 程序 需要 访问 大 型 数据 集 ， 那 么 所 有 的 指令 或 者 数据 可 能 在 主 存 中 放 不 下 。 这 种 情况 在 多 任 
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务 操作 系统 中 时 常 发 生 ; 为 了 在 程序 间 切 换 并 且 造 成 一 种 多 个 程序 能 够 同时 运行 的 错觉 ， 下 一 个 
时 间 片 运行 所 需 的 指令 和 数据 必须 在 主 存 中 。 因 此 ， 在 多 任务 操作 系统 中 ， 即 使 主 存 非常 大 ， 许 
多 运行 中 的 程序 必须 共享 可 用 的 主 存 。 此 外 ， 这 种 共享 必须 确保 每 个 程序 的 数据 和 指令 能 被 保 
护 ， 不 会 被 其 他 程序 访问 。 

利用 虚拟 存储 器 (或 虚拟 内 存 ) ， 使 得 主 存 可 以 作为 辅 存 的 缓存 。 它 通过 在 主 存 中 存放 当前 
执行 程序 所 需要 用 到 的 部 分 ， 来 利用 时 间 和 空间 局 部 性 ; 那些 暂时 用 不 到 的 部 分 存储 在 辅 存 的 块 
中 ， 称 为 交换 空间 (swap space) 中 。 与 CPU Cache 类 似 ， 虚 拟 存储 器 也 是 对 数据 块 和 指令 块 进 
行 操作 。 这 些 块 通常 称 为 页 (page) 。 因 为 访问 辅 存 比 访问 内 存 要 慢 几 十 万 倍 ， 所 以 页 通常 比较 
大 。 大 多 数 系统 采用 固定 大 小 的 页 ， 从 4 ~ 16kB 不 等 。 

如 果 在 编译 程序 时 直接 给 页 指定 物理 内 存 地 址 ， 那 么 就 会 陷 人 麻烦。 因为 这 样 做 的 话 ， 程 序 
中 的 每 一 页 也 都 必须 指定 一 块 内 存 来 存放 ， 在 多 任务 操作 系统 中 ， 就 会 导致 多 个 程序 要 使 用 相同 
的 内 存 块 。 为 了 避免 这 个 问题 ， 在 编译 程序 时 ， 给 程序 的 页 赋予 虚拟 页 号 。 当 程序 运行 时 ， 创 建 
一 张 将 虚拟 页 号 映射 成 物理 地 址 的 表 。 程 序 运行 时 使 用 到 虚拟 地 址 ， 这 个 页 囊 就 用 来 将 虚拟 地 址 
转换 成 物理 地 址 。 假 如 页 表 的 创建 由 操作 系统 管理 ， 那 么 就 能 保证 程序 使 用 的 内 存 不 会 与 其 他 程 
序 使 用 的 内 存 重 元 。 

使 用 页 表 的 缺点 是 ， 会 使 访问 主 存 区 域 的 时 间 加 倍 。 假 设 ， 想 要 执行 主 存 中 的 一 条 指令 ， 执 
行程 序 只 有 该 指令 的 虚拟 地 址 ， 在 从 主 存 中 找到 该 指令 前 ， 需 要 将 虚拟 地 址 转换 成 物理 地 址 。 为 
了 能 够 转换 虚拟 地 址 ， 需 要 在 内 存 中 寻找 包含 该 指令 的 页 。 现 在 ， 虚 拟 页 号 作为 虚拟 地 址 的 一 部 
分 存储 。 假 如 虚拟 地 址 有 32 位 ， 页 大 小 是 4KB = 4096 字 节 ， 那 么 可 以 用 12 位 来 标识 页 中 的 每 
个 字 节 。 这 是 因为 2” =4096。 因 此 ， 可 以 用 虚拟 地 址 的 低 12 位 来 定位 页 内 字 节 ， 而 剩 下 的 位 用 
来 定位 页 。 详 见 表 2-2。 虚 拟 页 号 能 够 直接 从 虚拟 地 址 中 计算 出 来 ， 而 不 用 访 存 。 但 是 ， 一 旦 知 
道 了 虚拟 页 号 ， 就 需要 访问 页 表 ， 将 虚拟 页 号 转换 成 物理 页 号 。 如 果 所 需要 的 页 表 不 在 Cache 
中 ， 就 需要 将 它 从 内 存 中 加 载 到 Cache 中 。 加 载 结束 后 ， 就 能 将 虚拟 地 址 转换 成 物理 地 址 并 获取 
需要 的 指令 。 


表 2-2 虚拟 地 址 分 为 两 部 分 : 虚拟 页 号 和 页 内 字 节 偏 移 量 
虚拟 地 址 





虚拟 页 号 页 内 字 节 偏 移 量 











显然 地 ， 问 题 又 来 了 。 尽 管 多 个 程序 可 以 同时 使 用 主 存 了 ， 但 使 用 页 表 会 增加 程序 总 体 的 运 
行 时 间 。 为 了 解决 这 个 问题 ， 处 理 器 有 一 种 专门 用 于 地 址 转换 的 缓存 ， 叫 做 转译 后 备 缓冲 区 
(Translation-Lookaside Buffer，TLB ) 。TLB 在 快速 存储 介质 中 缓存 了 一 些 页 表 的 条 目 (通常 为 16 ~ 
512 条 ) 。 利 用 时 间 和 空间 局 部 性 原理 ， 大 部 分 存储 器 所 访问 页 的 物理 地 址 已 经 存储 在 TLB 中 ， 
对 主 存 中 页 表 的 访问 能 够 大 幅度 减少 。 

TLB 的 术语 和 Cache 的 术语 一 样 。 当 查询 的 地 址 和 虚拟 页 号 在 TLB 中 时 ， 称 为 TLB 命中 ; 如 
果 不 在 TLB 中 ， 称 为 TLB 缺失 。 但 是 ， 有 些 术语 也 不 同 ， 假 如 想 要 访问 的 页 不 在 内 存 中 ， 即 页 表 
中 该 页 没有 合法 的 物理 地 址 ， 该 页 只 存储 在 磁盘 上 上 ， 那 么 这 次 访问 称 为 页 面 失效 (page fault) 。 

磁盘 访问 的 相对 迟缓 也 会 给 虚拟 内 存 带 来 一 些 额 外 的 后 果 。 第 一 ,在 CPU Cache 中 ， 可 以 使 
用 写 直达 或 者 写 回 方案 来 处 理 写 缺 失 问题 ， 但 在 虚拟 内 存 中 ， 磁 盘 访 问 代 价 太 大 ， 需 要 尽 可 能 地 
避免 ， 所 以 虚拟 内 存 通常 采用 写 回 方案 。 可 以 在 内 存 中 为 每 个 页 设置 一 位 ， 标 识 该 页 是 否 被 更 新 
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过 。 如 果 该 页 被 更 新 过 ， 则 在 页 从 内 存 中 替换 出 去 时 ， 需 要 把 它 写 人 磁盘 。 第 二 ， 因 为 磁盘 访问 
迟缓 ,管理 页 表 和 处 理 磁 盘 访 问 由 操作 系统 来 完成 。 因 此 ， 程 序 员 不 能 直接 控制 虚拟 内 存 。CPU 
Cache 是 由 系统 硬件 控制 ， 而 虚拟 内 存 是 由 系统 硬件 和 操作 系统 一 起 控制 的 。 


2.2.5 指令 级 并 行 

指令 级 并 行 (Instruction-Level parallelism，ILP) 通过 让 多 个 处 理 器 部 件 或 者 功能 单元 同时 执 
行 指令 来 提高 处 理 器 的 性 能 。 有 两 种 主要 方法 来 实现 指令 级 并 行 : 流水 线 和 多 发 射 。 流 水 线 是 指 
将 功能 单元 分 阶段 安排 ; 多 发 射 是 指 让 多 条 指令 同时 启动 。 这 两 种 方法 在 现代 CPU 中 都 有 使 用 。 

流水 线 

流水 线 的 原理 与 工厂 的 装配 流水 线 类 似 : 一 个 小 组 将 汽车 的 引擎 栓 到 底盘 上 的 同时 ， 另 一 
个 小 组 为 第 一 个 小 组 已 处 理 过 的 部 件 连接 变速 器 、 传 动 轴 和 引擎 ， 与 此 同时 第 三 个 小 组 把 前 面 
两 个 小 组 已 完成 的 产品 装 上 车 架 。 举 一 个 关于 计算 的 例子 ， 假 如 我 们 想 要 将 浮 点 数 9. 87 x 10 
和 6. 54 x10: 相 加 ， 我 们 可 以 使 用 如 下 步骤 ; 












































时 间 操 作 操作 数 一 操作 数 二 结 果 

0 取 操 作 数 9. 87 x 10° 6. 54 x103 

1 比较 指数 _ | 9. 87 x 104 6. 54 x 103 

2 移 位 一 个 操作 数 9. 87 x 10* | 0.654x10 | 

3 相 加 9.87 x10” 0. 654 x 10° 10. 524 x 10° 
4 规格 化 结果 9. 87 x10° 0. 654 x 10° 1.052 4 x 105 
5 舍 人 结果 9. 87 x 10 0.654 x 10° 1.05 x 107 
6 | 存储 结果 9. 87 x 10 0. 654 x 10” 1.05 x105 


这 里 ， 我 们 使 用 的 数 是 以 10 为 基数 ， 三 位 尾数 或 者 其 中 一 位 尾数 表示 在 小 数 点 的 左边 。 因 此 ,在 
这 个 例子 中 ， 规 格 化 操作 将 小 数 点 向 左 移动 一 个 单位 ， 并 将 尾数 最 终 舍 人 成 三 位 数字 。 

现在 ， 如 果 每 次 操作 花费 1 纳 秒 (10“ 秒 ) ， 那 么 加 法 操作 需要 花费 7 纳 秒 。 所 以 ， 如 果 执 
行 如 下 的 代码 : 

flioat x[L1000], y[1000], z[1000]; 

for (1 = 0: 1 < 1000; i++) 

zfi] = x[i] + y[i]; 
那么 for 循环 需要 花费 7000 纳 秒 。 

还 有 另 一 个 方案 ， 将 浮 点 数 加 法 器 划分 成 7 个 独立 的 硬件 或 者 功能 单元 。 第 一 个 单元 取 两 个 
操作 数 ， 第 二 个 比较 指数 ， 以 此 类 推 。 假 设 一 个 功能 单元 的 输出 是 下 面 一 个 功能 单元 的 输入 ， 那 
么 加 法 功能 单元 的 输出 是 规格 化 结果 功能 单元 的 输入 。 一 次 浮 点 数 加 法 花费 7 纳 秘 时 间 ， 但 是 ， 
当 执 行 for 循环 时 ， 可 以 在 比较 x[0] 和 y[0] 指 数 时 取出 x[1] 和 y[1]。 更 一 般 地 说 ， 能 够 同时 
执行 7 条 指令 的 7 个 不 同 阶段 。 详 见 表 2-3。 从 表 2-3 中 可 以 看 到 ， 在 时 间 5 后 ， 流 水 循环 每 1 纳 
秒 产 生 一 个 结果 ， 而 不 再 是 每 7 纳 秒 一 次 。 所 以 ,执行 for 循环 的 总 时 间 从 7000 纳 秒 降低 到 
1006 纳 秒 ， 提 高 了 近 7 倍 。 

总 的 来 说 ,个 阶段 的 流水 线 不 可 能 达到 倍 的 性 能 提高 。 例 如 ， 如 果 各 种 功能 单元 的 运行 
时 间 不 同 ， 则 每 个 阶段 的 有 效 运 行 时间 取 决 于 最 慢 的 功能 单元 。 上 此外， 有些 延迟 (例如 等 待 操作 
数 ) 也 会 造成 流水 线 的 阻塞 。 关 于 流水 线 的 性 能 ， 可 以 参考 习题 2. 1。 
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表 2-3 流水 线 加 法 。 表 格 中 的 数字 表示 操作 数 / 结 果 的 下 标 
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多 发 射 

流水 线 通 过 将 切 能 分 成 多 个 单独 的 硬件 或 者 功能 单元 ， 并 把 它们 按 顺序 串 接 来 提高 性 能 。 而 
多 发 射 处 理 器 通过 复制 功能 单元 来 同时 执行 程序 中 的 不 同 指令 。 例 如 ， 假 设 有 两 个 完整 的 浮 点 数 
加 法 器 ， 则 计算 下 面 循环 所 需要 的 时 间 减 半 : 


for (i = 0:; i < 1000; i++) 
z[i] = x[i] + y[i): 
当 第 一 个 加 法 器 计算 z10] 时 ,第 二 个 加 法 器 计算 z[ 1]; 当 第 一 个 加 法 器 计算 z[2] 时 ， 第 二 个 
计算 z[3]; 以 次 类 推 。 

如 果 功 能 单元 是 在 编译 时 调度 的 ， 则 称 该 多 发 射 系统 使 用 静态 多 发 射 ; 如 果 是 在 运行 时 间 调 
度 的 ， 则 称 该 多 发 射 系统 使 用 动态 多 发 射 。 一 个 支持 动态 多 发 射 的 处 理 器 称 为 超标 量 (supersca- 
lar) 。 

当然 ， 为 了 能 够 利用 多 发 射 ， 系 统 必 须 找 出 能 够 同时 执行 的 指令 。 其 中 一 种 最 重要 的 技术 是 
预测 ( speculation) 。 在 预测 技术 中 ， 编 译 器 或 者 处 理 器 对 一 条 指令 进行 猜测 ， 然 后 在 猜测 的 基础 
上 执行 代码 。 一 个 简单 的 例子 ， 在 下 面 的 代码 中 ， 系 统 预测 z = x + y 的 结果 z 可 能 为 正 数 ， 因 

[1 此 执行 赋值 操作 w = Xx。 

Z 一 X+Yy 

if (z > 0) 

W = X; 


else 
WwW 一 yi 


另 一 个 例子 ， 在 代码 中 : 





Z=X+y; 
W = *#a_-p; /*# 8p is a pointer *#/ 


系统 可 能 预测 指针 a_p 不 指向 z， 因 此 能 够 同时 执行 代码 中 两 个 赋值 操作 。 
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正如 以 上 两 个 例子 所 解释 的 那样 ， 预 测 执行 允许 预测 错误 的 情况 发 生 。 在 第 一 个 例子 中 ; 如 
果 z =x+y 的 值 为 负 或 者 为 零 ， 需 要 回 退 机 制 ， 然 后 执行 w = y。 在 第 二 个 例子 中 ， 假 如 a_p 指 
向 z， 则 需要 重新 执行 赋值 操作 Ww = * a_p。 

如 果 预 测 工作 由 编译 器 来 做 ， 那 么 它 通常 在 代码 中 嵌入 测试 语句 来 验证 预测 的 正确 性 ， 如 果 
预测 错误 ， 就 会 执行 修正 操作 。 假 如 由 硬件 做 预测 操作 ， 处 理 器 一 般 会 将 预测 执行 的 结果 缓存 在 
一 个 缓冲 器 中 。 如 果 预 测 正确 ， 缓 冲 器 中 的 内 容 会 传递 给 寄存 器 或 者 内 存 ; 如 果 预 测 错误 ， 则 组 
冲 器 中 的 内 容 被 丢弃 ， 指 令 重新 执行 。 

尽管 动态 多 发 时 系统 能 够 乱 序 执行 指令 ， 但 在 现行 的 系统 中 ， 指 令 是 顺序 加 载 的 ， 执 行 的 结 
果 也 是 顺序 提交 的 。 即 指令 的 结果 是 按 程序 中 规定 的 顺序 写 人 寄存 器 和 内 存 中 的 。 

另 一 方面 ， 编 译 器 优化 技术 能 够 对 指令 进行 重新 排序 。 我 们 会 在 后 面 看 到 ， 这 一 操作 会 对 共 
享 内 存 的 编程 产生 重大 影响 。 


2. 2.6 硬件 多 线程 
指令 级 并 行 是 很 难 利用 的 ， 因 为 程序 中 有 许多 部 分 之 间 存 在 依赖 关系 。 例 如 ， 直 接 计 算 斐 波 
那 契 数 ， 


f[0] = f[1] = 1: 
for (i = 2; i <= ni if+t) 
f[i] = f[i-1] + f[i~2]:; 

在 上 述 代码 中 ,实质 上 根本 没有 可 以 同时 执行 的 指令 。 

线程 级 并 行 〈Thread-Level Parallelism，TLP) 尝试 通过 同时 执行 不 同 线程 来 提供 并 行 性 。 与 
ILP 相 比 ，TLP 提供 的 是 粗 粒度 的 并 行 性 ， 即 同时 执行 的 程序 基本 单元 〈 线 程 ) 比 细 粒度 的 程序 
单元 〈 单 条 指令 ) 更 大 或 者 更 粗 。 

硬件 多 线程 (hardware multithreading) 为 系统 提供 了 一 种 机 制 ， 使 得 当前 执行 的 任务 被 阻塞 
时 ， 系 统 能 够 继续 其 他 有 用 的 工作 。 例 如 ， 如 果 当 前 任务 需要 等 待 数据 从 内 存 中 读 出 ， 那 么 它 可 
以 通过 执行 其 他 线程 而 不 是 继续 当前 线程 来 发 掘 并 行 性 。 当 然 ， 为 了 使 这 种 机 制 有 效 ， 系 统 必 须 
支持 线程 间 的 快速 切换 。 例 如 ， 在 一 些 较 老 的 系统 中 ， 一 个 线程 被 简单 地 实现 为 一 个 进程 ， 但 进 
程 之 间 切 换 的 时 间 是 执行 指令 时 间 的 数 千 倍 。 

在 细 粒 度 (fine-grained) 多 线程 中 ， 处 理 器 在 每 条 指令 执行 完 后 切换 线程 ， 从 而 跳 过 被 阻塞 
的 线程 。 尽 管 这 种 方法 能 够 避免 因为 阻塞 而 导致 机 器 时 间 的 浪费 ， 但 它 的 缺点 是 ， 执 行 很 长 一 段 
指令 的 线程 在 执行 每 条 指令 的 时 候 都 需要 等 待 。 粗 粒度 (coarse-grained) 多 线程 为 了 避免 这 个 问 
题 ， 只 切换 那些 需要 等 待 较 长 时 间 才 能 完成 操作 (如 从 主 存 中 加 载 ) 而 被 阻塞 的 线程 。 这 种 机 制 
的 优点 是 ， 不 需要 线程 间 的 立即 切换 。 但 是 ， 处 理 器 还 是 可 能 在 短 阻塞 时 空闲 ， 线 程 间 的 切换 也 
还 是 会 导致 延迟 。 

同步 多 线程 (Simultaneous Multithreading，SMT) 是 细 粒 度 多 线程 的 变种 。 它 通过 允许 多 个 线 
程 同 时 使 用 多 个 功能 单元 来 利用 超标 量 处 理 器 的 性 能 。 如 果 我 们 指定 “优先 ”线程 ， 那 么 能 够 在 
一 定 程度 上 减轻 线程 减速 的 问题 。 优 先 线程 是 指 有 多 条 指令 就 绪 的 线程 。 


2. 3 ”并 行 硬件 
因为 有 多 个 复制 的 功能 单元 ， 所 以 多 发 射 和 流水 线 可 以 认为 是 并 行 硬件 。 但 是 ， 这 种 并 行 性 


通常 对 程序 员 是 不 可 见 的 ， 所 以 我 们 仍 把 它们 当成 基本 的 冯 ，. 诺 依 曼 结构 的 扩展 。 我 们 的 原则 : 


是 ， 并 行 硬件 应 该 是 仅 限 于 对 程序 员 可 见 的 硬件 。 换 句 话说 ， 如 果 能 够 通过 修改 源 代码 而 开发 并 
行 性 或 者 必须 修改 源 代码 来 开发 并 行 性 ， 那 么 我 们 认为 这 种 硬件 是 并 行 硬件 。 
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迪 信 个 SIMD' 条 统 . 

在 并 行 计算 中 ，Flynn 分 类 法 经 常用 来 对 计算 机 体系 结构 进行 分 类 。 按 照 它 能 够 同时 管理 的 
指令 流 数目 和 数据 流 数目 来 对 系统 分 类 。 因 此 典型 的 汉 ， 诺 依 曼 系 统 是 单 指令 流 单 数据 流 (Sin- 
gle Instruction Stream，Single Data Stream，SISD) 系统 ， 因 为 它 一 次 执行 一 条 指令 ， 一 次 存 取 一 个 
数据 项 。 

单 指令 多 数据 流 (Single Instmction，Multiple Data，SIMD) 系统 是 并 行 系统 。 顾 名 思 义 ， 
SIMD 系统 通过 对 多 个 数据 执行 相同 的 指令 从 而 实现 在 多 个 数据 流 上 的 操作 。 所 以 一 个 抽象 的 
SIMD 系统 可 以 认为 有 一 个 控制 单元 和 多 个 ALU。 一 条 指令 从 控制 单元 广播 到 多 个 ALU ， 每 个 
ALU 或 者 在 当前 数据 上 执行 指令 或 者 处 于 空闲 状态 。 例 如 ， 假 设想 要 执行 一 个 “向 量 加 法 ”， 即 
有 两 个 数组 x 和 y ， 每 个 都 有 个 元 素 ， 想 要 把 y 中 的 元 素 加 到 x 中 

for (i = 0; i < n; i++) 

x[i] += y[i]; 

假如 SIMD 系统 中 有 个 ALU， 我 们 能 够 将 x[ i ] 和 y[ i] 加载 到 第 i 个 ALU 中 ， 然 后 让 第 i 
个 ALU 将 x[i] 和 y[i] 相 加 ， 最 后 将 结果 存储 在 x[ i ] 中 。 如 果 系 统 有 m 个 ALU， 并 且 m<n， 
那么 能 够 一 次 同时 执行 m 个 元 素 的 加 法 。 例 如 ,假设 m=4,， n=15， 可 以 先 将 编号 为 0~3 的 x 
和 y 的 元 素 相 加 ， 接 着 是 4 ~7 的 元 素 ， 然 后 是 8 ~ 11 ， 最 后 是 12 ~ 14 的 元 素 相 加 。 注 意 ， 我 们 
例子 中 最 后 一 组 元 素 (元 素 12 ~ 14) 的 加 法 ,只 对 x 和 yy 的 三 个 元 素 操作 ， 所 以 4 个 ALU 中 的 
一 个 会 处 于 空闲 状态 。 

所 有 的 ALU 要 么 执行 相同 的 指令 ， 要 么 同时 处 于 空闲 状态 的 要 求 会 严重 地 降低 SIMD 系统 的 
整体 性 能 。 例 如 ， 如 果 只 想 在 y[ ij 大 于 0 时 才 执 行 加 法 操作 

for (i = 0; i < Nn; i++) 

if (y[i] > 0.0) x[Li] += y[i]; 
在 这 种 情况 下 ， 我 们 必须 将 y 的 每 一 个 元 素 加 载 到 一 个 ALU 中 ， 然 后 判断 是 否 为 正 。 如 果 y[ i] 
为 正 ， 就 继续 执行 加 法 操作 ; 否则 ， 加 载 了 y[i] 的 ALU 处 于 空闲 状态 ,而 其 他 的 ALU 执行 
加 法 。 

注意 ， 在 “经 典 ” 的 SIMD 系统 中 ，ALU 必须 同步 操作 ， 即 在 下 一 条 指令 开始 执行 之 前 ， 每 
个 ALU 必须 等 待 广播 。 此 外 ，ALU 没有 指令 存储 器 ， 所 以 ALU 不 能 通过 存储 指令 来 延迟 执行 
指令 。 

最 后 ， 正 如 我 们 第 一 个 例子 中 显示 的 ，SIMD 系统 适合 于 对 处 理 大 型 数组 的 简单 循环 实行 并 
行 化 。 通 过 将 数据 分 配给 多 个 处 理 器 ， 然 后 让 各 个 处 理 器 使 用 相同 的 指令 来 操作 数据 子 集 实现 并 
行 化 。 这 种 并 行 称 为 数据 并 行 。SIMD 并 行 性 在 大 型 数据 并 行 问题 上 非常 有 用 ,但 是 在 处 理 其 他 
并 行 问 题 时 并 不 优秀 。 

SIMD 系统 经 历 了 变迁 的 历史 ， 在 20 世纪 90 年 代 早期 ，SIMD 系统 的 制造 者 (Thinking Ma- 
chine 公司 〉 是 并 行 超 级 计算 机 最 大 的 制造 者 。 但 是 到 20 世纪 90 年 代 末 ， 唯 一 广泛 生产 的 SIMD 
系统 是 向 量 处 理 器 。 近 来 ， 图 形 处 理 单元 (Graphics Processing Unit，GPU) 和 台式 机 的 CPU 利用 
了 SIMD 计算 方面 的 知识 。 

向 量 处 理 器 

尽管 向 量 处 理 器 的 构成 近年 来 发 生 了 变化 ， 但 它们 的 重要 特点 还 是 能 够 对 数组 或 者 数据 向 量 
进行 操作 ， 而 传统 的 CPU 是 对 单独 的 数据 元 素 或 者 标量 进行 操作 。 近 年 来 ， 典型 的 系统 有 如 下 
特征 : 

。 向 量 寄存 器 。 它 是 能 够 存储 由 多 个 操作 数组 成 的 向 量 ， 并 且 能 够 同时 对 其 内 容 进 行 操作 的 
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寄存 器 。 向 量 的 长 度 由 系统 决定 ， 从 4 到 128 个 64 位 元 素 不 等 。 

向 量化 和 流水 化 的 功能 单元 。 注 意 ， 对 向 量 中 的 每 个 元 素 需 要 做 同样 的 各 休 。 绕 并 村 [ 汪 大 
似 于 加 法 的 操作 ， 这 些 操作 需要 应 用 到 两 个 向 量 中 相应 的 元 素 对 上 。 因 此 ,向量 操 信守 
SIMD 。 

向 量 指令 。 这 些 是 在 向 量 上 操作 而 不 是 在 标量 上 操作 的 指令 。 如 果 向 量 的 长 度 是 vector 
_length， 那么 这 些 指令 的 功能 相当 于 一 个 简单 的 循环 语句 ， 如 ， 


for (i = 0; i < n; i++) 

x[i] += y[i]' 
只 需要 一 次 加 载 、 一 次 加 法 和 一 次 存储 操作 就 完成 了 对 长 度 为 vector_length 的 数据 
块 的 操作 ， 而 传统 的 系统 需要 对 数据 块 中 每 个 元 素 单独 进行 加 载 、 加 法 和 存储 操作 。 
交叉 存储 器 。 内 存 系统 由 多 个 内 存 “ 体 ”组 成 ， 每 个 内 存 体能 够 独立 访问 。 在 访问 完 一 
个 内 存 体 之 后 ， 再 次 访问 它 之 前 需要 有 一 个 时 间 延 迟 ， 但 如 果 接 下 来 的 内 存 访 问 是 访问 另 
一 个 内 存 体 ， 那 么 它 很 快 就 能 访问 到 。 所 以 ， 如 果 向 量 中 的 各 个 元 素 分 布 在 不 同 的 内 存 体 
中 ,那么 在 装 人 /存储 连续 数据 时 能 够 几乎 无 延迟 地 访问 。 
步 长 式 存储 器 访问 和 硬件 散射 /聚集 。 在 步 长 式 存储 器 访问 中 ， 程 序 能 够 访问 向 量 中 国定 
间隔 的 元 素 ， 例 如 能 够 以 跨度 4 访问 第 一 个 元 素 、 第 五 个 元 素 、 第 九 个 元 素 等 。 (在 本 文 
中 ) 散射 /聚集 是 对 无 规律 间隔 的 数据 进行 读 (聚集 ) 和 写 〈 散 射 ) 。 例 如 访问 第 一 个 元 
素 、 第 二 个 元 素 、 第 四 个 元 素 、 第 八 个 元 素 等 。 典 型 的 向 量 系统 通过 提供 特殊 的 硬件 来 加 
速 步 长 式 存储 器 访问 和 散射 /聚集 操作 。 

向 量 处 理 顺 对 许多 应 用 都 有 益处 ， 因 为 它们 速度 快 而 且 容易 使 用 。 向 量 编译 器 擅长 于 识别 向 
量化 的 代码 。 此 外 ， 它 们 能 识别 出 不 能 向 量化 的 循环 而 且 能 提供 循环 为 什么 不 能 向 量化 的 原因 。 
因此 ， 用 户 能 对 是 否 重 写 代 码 以 支持 向 量化 做 出 明智 的 决定 。 向 量 系 统 有 很 高 的 内 存 带 宽 ， 每 个 
加 载 的 数据 都 会 使 用 ， 不 像 基 于 Cache 的 系统 不 能 完全 利用 高 速 缓存 行 中 的 每 个 元 素 。 但 是 ， 它 
不 能 处 理 不 规则 的 数据 结构 和 其 他 的 并 行 结 构 ， 这 对 它 的 可 扩展 性 是 个 限制 。 可 扩展 性 是 指 能 够 
处 理 更 大 问题 的 能 力 。 制 造 一 个 能 够 处 理 长 度 不 断 增 长 的 向 量 的 系统 是 很 难 的 事 。 新 一 代 系 统 通 
过 增加 向 量 处 理 器 的 数目 而 不 是 增加 向 量 长 度 来 进行 扩展 。 当 前 的 商品 化 系统 对 短 向 量 提供 部 分 
有 限 的 支持 ， 能 对 长 向 量 进行 操作 的 处 理 器 是 定制 生产 的 ， 非 常 昂贵 。 

图 形 处 理 单元 ( GPU ) 

实时 图 形 应 用 编程 接口 使 用 点 、 线 、 三 角形 来 表示 物体 的 表面 。 它 们 使 用 图 形 处 理 流水 线 
( graphics processing pipeline) 将 物体 表面 的 内 部 表示 转换 为 一 个 像素 的 数组 。 这 个 像素 数组 能 够 
在 计算 机 屏幕 上 显示 出 来 。 流 水 线 的 许多 阶段 是 可 编程 的 。 可 编程 阶段 的 行为 可 以 通过 着 色 函 数 
(shader function) 来 说 明 。 典 型 的 着 色 函 数 一 般 比较 短 ， 通 常 只 有 几 行 C 代码 。 因 为 它们 能 够 应 
用 到 图 形 流 中 的 多 种 元 素 〈 例 如 顶点 ) 上 , 所 以 着 色 函 数 一 般 是 隐 式 并 行 的 。 对 邻近 元 素 使 用 着 
色 函 数 会 导致 相同 的 控制 流 ，GPU 可 以 通过 使 用 SIMD 并 行 来 优化 性 能 。 现 在 所 有 的 GPU 都 使 用 
SIMD 并 行 。 这 是 通过 在 每 个 GPU 处 理 核 中 引信 大 量 的 ALU (例如 80 个 ) 来 获取 的 。 

处 理 单个 图 像 就 需要 大 量 的 数据 ， 数 百 兆 大 小 的 图 像 是 很 普通 的 。 因 此 GPU 需要 维持 很 高 的 
数据 移动 速率 ， 另 外 ， 为 了 避免 内 存 访问 带 来 的 延迟 ，GPU 严重 依赖 硬件 多 线程 。 有 些 系统 能 够 
存储 数 百 个 挂 起 线程 的 状态 。 实 际 线程 的 数目 依赖 于 着 色 函 数 需要 的 资源 (例如 寄存 器 ) 的 数 
量 。GPU 的 缺点 是 需要 许多 处 理 大量 数 据 的 线程 来 维持 ALU 的 忙碌 ， 可 能 在 小 问题 的 处 理 上 性 
能 相对 差 。 

需要 强调 的 是 ，GPU 不 是 纯粹 的 SIMD 系统 。 尽 管 在 一 个 给 定 核 上 的 ALU 使 用 了 SIMD 并 行 ， 
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但 现代 的 GPU 有 几 十 个 核 ， 每 个 核 都 能 独立 地 执行 指令 流 。 
”GPU 在 通用 高 性 能 计算 中 越 来 越 流行 ， 开 发 出 许多 语言 ， 使 得 用 户 可 以 利用 它们 的 能 力 。 详 
见 参考 文献 [30] 。 


2. 3.2 MIMD 系统 

多 指令 多 数据 流 (Multiple Instruction，Multiple Data，MIMD) 系统 支持 同时 多 个 指令 流 在 多 
个 数据 流 上 操作 。 因 此 ，MIMD 系统 通常 包括 一 组 完全 独立 的 处 理 单元 或 者 核 ， 每 个 处 理 单元 或 
者 核 都 有 自己 的 控制 单元 和 ALU。 此 外 ， 不同 于 SIMD 系统 ，MIMD 系统 通常 是 异步 的 ， 即 各 个 
处 理 器 能 够 按 它们 自己 的 节奏 运行 。 在 许多 MIMD 系统 中 ,没有 全 局 时 钟 ， 两 个 不 同 处 理 器 上 的 
系统 时 间 之 间 是 没有 联系 的 。 实 际 上 ， 除 非 程序 员 强 制 同步 ， 即 使 处 理 器 在 执行 相同 顺序 的 指令 

时 ， 在 任意 时 刻 它们 都 可 能 执行 不 同 的 语句 。 

正如 我 们 在 第 1 章 中 提 到 的 ，MIMD 系统 有 两 种 主要 的 类 型 : 共享 内 存 系统 和 分 布 式 内 存 系 
统 。 在 共享 内 存 系 统 中 ， 一 组 自治 的 处 理 器 通过 互连网 络 (internection network) 与 内 存 系统 相互 
连接 ， 每 个 处 理 器 能 够 访问 每 个 内 存 区 域 。 在 共享 内 存 系统 中 ， 处 理 器 通过 访问 共享 的 数据 结构 
来 隐 式 地 通信 。 在 分 布 式 内 存 系统 中 ， 每 个 处 理 器 有 自己 私有 的 内 存 空 间 ， 处 理 器 - 内 存 对 之 间 
通过 互连网 络 相 互通 信 。 所 以 在 分 布 式 内 存 系统 中 ， 处 理 器 之 间 是 通过 发 送 消息 或 者 使 用 特殊 的 
函数 来 访问 其 他 处 理 器 的 内 存 ， 从 而 进行 显 式 的 通信 。 见 图 2-3 和 图 2-4。 








图 2-3 一 个 共享 内 存 系统 











2-4 一 个 分 布 式 内 存 系统 


共享 内 存 系统 
最 广泛 使 用 的 共享 内 存 系统 使 用 一 个 或 者 多 个 多 核 处 理 器 。 正 如 第 1 章 中 讨论 的 ， 一 个 多 核 
处 理 器 在 一 块 芯片 上 有 多 个 CPU 或 者 核 。 通 常 ， 每 个 核 都 拥有 私有 的 L1 Cache， 而 其 他 的 Cache 
可 以 在 核 之 间 共 享 ， 也 可 以 不 共享 。 
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在 拥有 多 个 多 核 处 理 器 的 共享 内 存 系统 中 ， 互 连 网 络 可 以 将 所 有 的 处 理 器 直接 连 到 主 存 ， 或 


者 也 可 以 将 每 个 处 理 器 直接 连 到 一 块 内 营 片 1 芯片 2 
存 ， 通过 处 理 器 中 内 置 的 特殊 硬件 使 得 
各 个 处 理 器 可 以 访问 内 存 中 的 其 他 块 。 
如 图 2-5 和 图 2-6。 在 第 一 种 系统 中 ， 每 
个 核 访问 内 存 中 任何 一 个 区 域 的 时 间 都 
相同 ; 而 在 第 二 种 系统 中 ,访问 与 核 直 
接连 接 的 那 块 内 存 区 域 比 访问 其 他 内 存 
区 域 要 快 很 多 ， 因 为 访问 其 他 内 存 区 域 内 存 图 

需要 通过 另 一 块 芯 片 。 因 此 ， 第 一 种 系 

统称 为 一 致 内 存 访问 ( Uniform Memory 图 2-5 一 个 UMA 多 核 系 统 
Access，UMA ) 系统 ， 而 第 二 种 系统 称 为 非 一 致 内 存 访问 (Nonuniform Memory Access，NUMA ) 
系统 。UMA 系统 通常 比较 容易 编程 ， 因 为 程序 员 不 用 担心 不 同 内 存 区 域 的 不 同 访 存 时 间 。 在 NU- 
MA 系统 中 ， 对 与 核 直接 连接 的 内 存 区 域 的 访问 速度 较 快 ， 失 去 了 易于 编程 的 优点 ， 但 NUMA 系 
统 能 够 比 UMA 系统 使 用 更 大 容量 的 内 存 。 


芯片 1 芯片 2 





























图 2-6 一 个 NUMA 多 核 系统 


分 布 式 内 存 系统 

最 广泛 使 用 的 分 布 式 内 存 系统 称 为 集群 (clusters) 。 它 们 由 一 组 商品 化 系统 组 成 (例如 PC ) ， 
通过 商品 化 网 络 连接 (例如 以 太 网 )。 实 际 上 ， 这 些 系统 中 的 节点 (通过 通信 和 网络 相互 连接 的 独 
立 计算 单元 ) ， 通 常 都 是 有 一 个 或 者 多 个 多 核 处 理 器 的 共享 内 存 系统 。 为 了 将 这 种 系统 与 纯粹 的 
分 布 式 内 存 系统 分 开 ， 这 种 系统 通常 称 为 混合 系统 。 现 在 ， 通 常 认为 一 个 集群 有 多 个 共享 内 存 

网 格 提供 一 种 基础 架构 ， 使 地 理 上 分 布 的 计算 机 大 型 网 络 转换 成 一 个 分 布 式 内 存 系统 。 通 
常 ， 这 样 的 系统 是 异 构 的 ， 即 每 个 节点 都 是 由 不 同 的 硬件 构造 的 。 


2. 3.3 互连网 络 

互连网 络 (interconnection network) 在 分 布 式 内 存 系统 和 共享 内 存 系统 中 都 扮演 了 一 个 决定 
性 的 角色 ， 即 使 处 理 器 和 内 存 无 比 强大 ， 但 一 个 缓慢 的 互连网 络 会 严重 降低 除 简 单 并 行程 序 外 所 
有 程序 的 整体 性 能 。 详 见习 题 2. 10。 

尽管 有 些 互连网 络 大 体 相 似 ， 但 还 是 有 很 多 的 差别 ， 我 们 必须 对 共享 内 存 系统 和 分 布 式 内 存 
系统 的 互连网 络 区 别 对 待 。 

共享 内 存 互连网 络 

在 共享 内 存 系统 中 ， 目 前 最 常用 的 两 种 互连网 络 是 总 线 (bus) 和 交叉 开关 和 矩阵 (crossbar)。 
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总 线 是 由 一 组 并 行 通信 线 和 控制 对 总 线 访问 的 硬件 组 成 的 。 总 线 的 核心 特征 是 连接 到 总 线 上 的 设 
备 共享 通信 线 。 总 线 具 有 低 成 本 和 灵活 性 的 优点 ， 多 个 设备 能 够 以 小 的 额外 开销 连接 到 总 线 上 。 
但 是 ， 因 为 通信 线 是 共享 的 ， 因 此 随 着 连接 到 总 线 设 备 的 增多 ， 争 夺 总 线 的 概率 增 大 ， 总 线 的 预 
期 性 能 会 下 降 。 如 果 将 大 量 的 处 理 器 与 总 线 连接 ， 那么 可 以 断定 处 理 器 会 经 常 等 待 访问 内 存 。 因 
此 ， 随 着 共享 内 存 系统 规模 的 增 大 ， 总 线 会 迅速 被 交换 互连网 络 所 取代 。 

顾名思义 ， 交 换 互 连 网 络 使 用 交换 器 (switch) 来 控制 相互 连接 设备 之 间 的 数据 传递 。 
图 2-7a 是 一 个 交叉 开关 矩阵 (crossbar) ， 线 表示 双向 通信 和 链 路 ， 方 块 表示 核 或 者 内 存 模 块 ， 圆 图 
表示 交换 器 。 

单个 交换 器 有 两 种 不 同 的 设置 ， 如 图 2-7b 所 示 。 在 使 用 这 种 交换 器 ， 并 且 内 存 模块 不 比 处 

理 器 少 的 情况 下 ， 当 两 个 核 同时 访问 相同 的 内 存 模块 时 ， 它 们 只 可 能 发 生 一 次 冲突 。 例 如 ， 

图 2-7c 显 示 了 ， 当 Pl1 向 M4 写 数据 ，P2 从 M3 中 读数 据 ，P3 从 MI 中 读数 据 ，P4 向 M2 中 写 数 
据 时 ， 各 个 交换 器 的 配置 情况 。 
































图 2-7 a) 一 个 连接 4 个 处 理 器 (P,) 和 4 个 内 存 模块 (M,) 的 交叉 开关 矩阵; 
b) 交叉 开关 矩阵 内 部 的 交换 器 ; e) 多 个 处 理 器 同时 访问 内 存 


第 2 章 ”并行 硬件 和 并 行 软件 " 25 


交叉 开关 年 阵 允 许 在 不 同 设备 之 间 同 时 进行 通信 ， 所 以 比 总 线 速度 快 。 但 是 ， 交 换 器 和 链 路 
带 来 的 开销 也 相对 高 。 一 个 小 型 的 基于 总 线 系 统 比 相等 规模 的 基于 交叉 开关 抢 阵 系统 便宜 。 

分 布 式 内 存 互连网 络 

分 布 式 内存 互 连 网 络 通常 分 成 两 种 : 直接 互 连 与 间接 互 连 。 在 直接 互 连 中 ， 每 个 交换 器 与 一 
个 处 理 器 - 内 存 对 直接 相连 ， 交 换 器 之 间 也 相互 连接 。 图 2-8 给 出 了 一 个 环 (ring) 和 一 个 二 维 
环 面 网 格 (toroidal mesh) 。 如 前 面 所 述 ， 圆 圈 表 示 交 换 器 ， 方 块 表示 处 理 器 ， 线 表示 双向 通信 链 
路 。 环 比 简单 的 总 线 高 级 ， 因 为 它 允 许 有 多 个 通信 同时 发 生 。 然 而 ， 在 处 理 器 必须 等 待 其 他 处 理 
器 才能 完成 通信 的 情况 中 ， 制 定 通 信 方 案 会 比较 容易 。 环 面 网 格 比 环 昂贵 ， 因 为 交换 器 更 加 复 
杂 。 这 种 交换 器 需要 能 够 支持 5 个 链 路 而 不 只 是 3 个 。 如 果 有 p 个 处 理 器 ， 在 环 面 网 格 中 链 路 的 
数目 是 3p, 但 在 环 中 只 是 2p。 但 是 在 环 面 网 格 中 ， 可 以 同时 通信 的 链 路 数目 比 环 中 的 多 ， 这 一 点 
是 毋庸 置疑 的 。 














[P1| [Pz| [Ps| 
a) 
图 2-8 a) 一 个 环 ; b) 一 个 二 维 环 面 网 格 (toroidal mesh) 


衡量 “同时 通信 的 链 路 数目 ”或 者 “连接 性 ”的 一 个 标准 是 等 分 宽度 ( bisection width ) 。 为 
了 理解 这 个 标准 ， 想 象 并 行 系统 被 分 成 两 部 分 ， 每 部 分 都 有 一 半 的 处 理 器 或 者 节点 。 在 这 两 部 份 
之 间 能 同时 发 生 多 少 通 信 呢 ? 在 图 2-9a 中 ， 我 们 将 一 个 8 节点 的 环 分 成 两 组 ， 每 组 有 四 个 节点 ,| 
它们 之 间 同 时 发 生 通信 的 次 数 只 为 2 (为 了 使 图 更 容易 理解 ， 将 每 个 节点 与 它 的 交换 器 并 在 一 起 ， 
随后 再 直接 互 连 ) 。 但 在 图 2-9b 中 ， 将 节点 分 成 两 部 分 ， 使 它们 之 间 能 够 同时 发 生 4 次 通信 。 那 
么 ， 什 么 是 等 分 宽度 呢 ? 等 分 宽度 是 基于 最 坏 情况 来 估计 的 ， 所 以 等 分 宽度 是 2 而 不 是 4。 











图 2-9 一 个 环 的 两 种 等 分 : a) 在 两 个 等 分 之 间 的 通信 链 路 数 为 2; b) 在 两 个 等 分 之 间 的 通信 链 路 数 为 4 
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计算 等 分 宽度 的 另 一 种 方法 是 去 除 最 少 的 链 路 数 从 而 将 节点 分 成 两 等 份 ， 去 除 的 链 路 数 就 是 
等 分 宽度 。 如 果 有 一 个 正方 形 的 二 维 环 面 网 格 ， 有 p= 个 节点 (gq 为 偶数 ) ， 然 后 通过 移 除 一 些 
“中 间 ” 的 水 平 链 路 和 “ 回 绕 ” 的 水 平 链 路 ， 将 这 些 节点 分 成 两 份 。 如 图 2-10 所 示 。 这 意味 着 等 
分 宽度 最 多 是 2 = 2V7 。 实 际 上 ， 这 是 最 小 的 可 能 链 路 数目 ， 一 个 正方 形 二 维 环 面 网 格 的 等 分 宽 
度 就 是 2 。 

链 路 的 带宽 (bandwidth) 是 指 它 传输 数据 的 速度 。 通 常用 兆 位 每 秒 或 者 兆 字 节 每 秒 来 表示 。 
等 分 带宽 bisection bandwidth) 通常 用 来 衡量 网 络 的 质量 。 它 与 等 分 宽度 类 似 。 但 是 ， 等 分 带宽 
不 是 计算 连接 两 个 等 分 之 间 的 链 路 数 ， 而 是 计算 链 路 的 带宽 。 例 如 ， 如 果 在 环 中 ， 链 路 的 带宽 是 
10 亿 位 每 秒 ， 那 么 环 的 等 分 带宽 就 是 20 亿 位 每 秒 或 者 2000 兆 位 每 秒 。 

最 理想 的 直接 互连网 络 是 全 相连 网 络 ， 即 每 个 交换 器 与 每 一 个 其 他 的 交换 器 直接 连接 。 如 
图 2-11 所 示 ， 它 的 等 分 宽度 是 严 /4。 但 是 ， 为 节点 数目 较 多 的 系统 构建 这 样 的 互连网 络 是 不 切实 














可 ] 际 的 ， 因 为 它 需要 总 共产 /2 + pv2 条 链 路 ， 而 且 每 个 交换 器 都 需要 连接 p 条 链 路 。 因 此 ， 这 只 是 
一 个 “理论 上 可 能 最 佳 ”的 互连网 络 ， 它 用 来 作为 衡量 其 他 互连网 络 的 基础 。 


I 
下 
全 























图 2-10 一 个 二 维 环 面 网 格 的 等 分 图 2-11 一 个 全 互连网 络 


超 立 方 体 是 一 种 已 经 用 于 实际 系统 中 的 高 度 互 连 的 直接 互连网 络 。 超 立方 体 是 递归 构造 的 : 
一 维 超 立 方 体 是 有 两 个 处 理 器 的 全 互 连 系统 。 二 维 超 立 方 体 是 由 两 个 一 维 超 立 方 体 组 成 ， 并 通过 
“相应 ”的 交换 器 互 连 。 如 图 2-12 所 示 。 因 此 ， 维 度 为 d 的 超 立方 体 有 p=2° 个 节点 ,并 且 在 a 
维 超 立 方 体 中 ， 每 个 交换 器 与 一 个 处 理 器 和 d 个 交换 器 直接 连接 。 这 样 的 超 立 方 体 的 等 分 宽度 是 
p/2， 所 以 它 比 环 或 者 环 面 网 格 连接 性 更 高 ,但 需要 更 强大 的 交换 器 ， 因 为 每 个 交换 器 必须 文 持 
1+d=1+log,，(p) 条 连 线 ， 而 二 维 环 面 网 格 的 交换 器 只 需要 5 条 连 线 。 所 以 构建 一 个 p 个 节点 的 
超 立 方 体 互连网 络 比 构建 一 个 二 维 环 面 网 格 更 昂贵 。 


a) b) c) 
图 2-12 a) 一 维 ; b) 二 维 ; c) 三 维 超 立 方 体 
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间接 互 连 为 直接 互 连 提供 了 一 个 替代 的 选择 。 在 间接 互连网 络 中 ， 交 换 器 不 一 定 与 处 理 器 直 
接连 接 。 它 们 通常 由 一 些 单 向 连接 和 一 组 处 理 器 组 成 ， 每 个 处 理 器 有 一 个 输入 链 路 和 一 个 输出 链 
路 ， 这 些 链 路 通过 一 个 交换 网 络 连接 。 见 图 2-13。 

交叉 开关 矩阵 和 omega 网 络 是 间接 网 络 中 相对 简单 的 例子 。 前 面 ， 我 们 看 到 了 使 用 双向 链 
路 的 共享 内 存 交叉 开关 和 矩阵 〈 见 图 2-7) 。 图 2-14 中 的 交叉 开关 和 矩阵 通过 单 向 链 路 共享 分 布 式 内 
存 。 注 意 ， 只 要 两 个 处 理 器 不 尝试 与 同一 个 处 理 器 通信 ， 那 么 所 有 的 处 理 器 就 能 够 同时 与 其 他 的 
处 理 器 通信 。 




















图 2-13 一 个 通用 的 间接 网 络 图 2-14 一 个 用 于 分 布 式 内 存 的 交叉 开关 矩阵 互连网 络 


omega 网 络 见 图 2-15。 交 换 器 是 一 个 2 x2 的 交叉 开关 和 矩阵 〈 见 图 2-16) 。 注 意 ， 与 交叉 开关 
矩阵 不 同 的 是 ， 有 一 些 通 信 无 法 同时 进行 。 例 如 ， 在 图 2-15 中 ， 处 理 器 0 给 处 理 器 6 发 送 一 个 消 
息 ， 这 时 处 理 器 1 就 不 能 同时 给 处 理 器 7 发 送 消息 。 另 一 方面 ，omega 网 络 比 交 叉 开 关 拖 阵 便宜 。 


omega 网 络 使 用 了 -plog;(P) 个 交换 器 ,每 个 交换 器 是 一 个 2 x2 交叉 开关 失 阵 交换 器 ， 所 以 总 共 
使 用 了 2plog,(p) 个 交换 器 ， 而 交叉 开关 矩阵 使 用 P 个 交换 器 。 





图 2-15 一 个 omega 网 络 


[40] 
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为 间接 互连网 络 定义 等 分 宽度 就 比较 复杂 ， 见 习题 2. 14。 但 原理 是 相同 的 : 将 节点 分 成 大 小 
相等 的 两 部 分 ， 并 确定 在 两 个 等 分 之 间 发 生 多 少 通 
信 ， 或 者 至 少 需要 移 除 多 少数 目的 链 路 才能 使 两 个 等 
分 不 再 通信 。 一 个 p xp 大 小 的 交叉 开关 和 气 阵 的 等 分 
宽度 是 p， 而 一 个 omega 网 络 的 等 分 宽度 是 p/2。 

延迟 和 带宽 

当 传 送 数据 时 ， 我 们 关心 数据 到 达 目 的 地 需要 花 
多 少时 间 。 无 论 数据 是 在 主 存 和 Cache 之 间 传 递 、 在 
Cache 和 寄存 器 之 间 、 在 磁盘 和 内 存 之 间 ， 还 是 在 两 图 2-16 ”omega 网 络 中 的 一 个 交换 器 
个 分 布 式 内 存 系统 或 者 混合 系统 的 节点 之 间 传 送 ， 这 个 问题 都 很 关键 。 下 面 是 两 个 经 常用 来 衡量 
互连网 络 (不 管 怎么 连接 ) 性 能 的 指标 : 延迟 (latency) 和 带宽 (bandwidth ) 。 延 迟 是 指 从 发 送 
源 开始 传送 数据 到 目的 地 开始 接收 数据 之 间 的 时 间 。 带 宽 是 指 目 的 地 在 开始 接收 数据 后 接收 数据 
的 速度 。 所 以 如 果 一 个 互连网 络 的 延迟 是 1 秒 ， 带 宽 是 4b 字 节 每 秒 ， 则 传输 一 个 n 字 节 的 消息 需 
要 花费 的 时 间 是 : 

消息 传送 的 时 间 =1+n/b 

但 是 ， 需 要 注意 的 是 ， 这 些 术 语 经 常 在 不 同 的 场合 下 使 用 。 例 如 ,延迟 有 时 候 也 用 来 描述 消 
息 传 送 的 总 时 间 。 它 也 用 来 描述 在 传送 数据 时 需要 的 固定 开销 。 例 如 ， 如 果 在 分 布 式 内 存 系统 中 
的 两 个 节点 之 间 传 递 消息 ， 消 息 中 不 仅仅 包含 原始 数据 ， 它 可 能 还 包括 将 要 传送 的 数据 、 目 标 地 
址 ， 有 些 消 息 还 会 描述 消息 的 长 度 、 某 些 错误 校 验 的 信息 等 。 所 以 ， 在 这 种 情况 下 ， 延 迟 是 指 在 
发 送 端 收集 消息 的 时 间 、 将 不 同 部 分 组 装 起 来 的 时 间 、 在 接收 端 将 消息 拆卸 的 时 间 、 从 消息 中 抽 
取 原 始 数据 的 时 间 以 及 在 目的 地 存储 的 时 间 的 总 和 。 
2. 3.4 Cache 一 致 性 

回忆 一 下 ，CPU Cache 是 由 系统 硬件 来 管理 的 ， 程 序 员 对 它 不 能 进行 直接 的 控制 。 这 会 对 共 
享 内 存 系统 带 来 很 多 重大 的 影响 。 为 了 理解 这 些 ， 假 如 共享 内 存 系统 中 有 两 个 核 ， 每 个 核 有 各 自 
私有 的 数据 Cache， 见 图 2-17。 如 果 两 个 核 只 对 共享 数据 进行 读 
操作 ,那么 不 会 发 生 任 何 问题 。 例 如 ，x 是 一 个 共享 变量 并 初始 
化 为 2，y0 是 核 0 私有 的 ，yl 和 zl 是 核 1 私有 的 。 现 在 假设 按 
指定 时 序 执行 下 面 的 语句 . 














时 间 核 0 核 1 

0 y0 =X; yl =3 xXx; 

1 X=7; 没有 包含 x 的 语句 
2 没有 包含 x 的 语句 。 zl1 =4 Xxx; 





那么 y0 的 内 存 区 域 会 最 终 得 到 值 2，yl1 的 内 存 区 域 会 得 到 
值 6。 但 是 ，z1 会 获得 什么 值 就 不 是 很 清楚 了 。 第 一 感觉 可 能 
是 ， 既 然 核 0 在 z1 赋值 前 将 x 更 新 为 7， 所 以 zl 可 以 得 到 4 x7 
=28。 但是， 在 时 间 0 时 ，x 已 经 在 核 1 的 Cache 中 。 除 非 出 于 
某 些 原因 ，x 清除 出 核 0 的 Cache， 然 后 再 重新 加 载 到 核 1 的 
Cache 中 ; 若 没 有 上 述 情况 ， 通 常 还 是 会 使 用 原来 的 值 x =2， 而 
zl 也 会 得 到 4 x2 =8。 

注意 ， 这 种 不 可 预测 的 行为 与 系统 使 用 写 直 达 (write- 图 2-17 有 两 个 核 和 两 个 Cache 
through) 策略 还 是 写 回 ( write-back) 策略 无 关 。 如 果 使 用 写 直达 的 共享 内 存 系统 
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策略 ， 主 存 会 通过 x =7 的 赋值 而 更 新 。 但 是 ， 这 与 核 1 中 Cache 的 值 无 关 。 如 果 系 统 使 用 写 回 
策略 ， 那 么 当 更 新 zl 时 ，x 在 核 0 Cache 中 的 新 值 对 核 1 是 不 可 用 的 。 

显然 ， 这 是 一 个 问题 。 程 序 员 对 Cache 什么 时 候 更 新 没有 直接 控制 ， 所 以 程序 不 能 执行 那些 
看 起 来 无 害 的 、 但 可 能 需要 访问 zl 值 的 语句 。 这 里 有 许多 问题 ， 但 需要 清楚 的 一 点 是 ， 单 核 处 
理 器 系统 的 Cache 对 如 下 情况 没有 提供 保证 : 在 多 核 系统 中 ， 各 个 核 的 Cache 存储 相同 变量 的 副 
本 ， 当 一 个 处 理 器 更 新 Cache 中 该 变量 的 副本 时 ， 其 他 处 理 器 应 该 知道 该 变量 已 更 新 ， 即 其 他 处 
理 器 中 Cache 的 副本 也 应 该 更 新 。 这 称 为 Cache 一 致 性 问题 。 

监听 Cache 一 致 性 协议 

有 两 种 主要 的 方法 来 保证 Cache 的 一 致 性 : 监听 Cache 一 致 性 协议 和 基于 目录 的 Cache 一 致 
性 协议 。 监 听 协 议 的 想法 来 自 于 基于 总 线 的 系统 : 当 多 个 核 共 享 总 线 时 ， 总 线 上 传递 的 信和 号 都 能 
被 连接 到 总 线 的 所 有 核 “ 看 ”到 。 因 此 ， 当 核 0 更 新 它 Cache 中 x 的 副本 时 ， 如 果 它 也 将 这 个 更 
新 信息 在 总 线 上 广播 ， 并且 假如 核 1 正在 监听 总 线 ， 那 么 它 会 知道 x 已 经 更 新 了 ， 并 将 自己 
Cache 中 的 x 的 副本 标记 为 非法 的 。 这 就 是 监听 Cache 一 致 性 协议 大 致 的 工作 原理 。 我们 的 描述 与 
实际 监听 协议 之 间 的 最 大 差别 在 于 ， 广 播 会 通知 其 他 核 包含 x 的 整个 Cache 行 已 经 更 新 ， 而 不 是 
只 有 X 更 新 。 

关于 监听 ， 有 几 点 必须 要 考虑 的 。 第 一 ， 互 连 网 络 不 一 定 必须 是 总 线 ， 只 要 能 够 支持 从 每 个 
处 理 器 广播 到 其 他 处 理 器 。 第 二 ， 监 听 协 议 能 够 在 写 直 达 和 写 回 Cache 上 都 能 工作 ， 原 则 上 ， 如 
果 互 连 网 络 可 以 像 总 线 那样 被 Cache 共享 ， 如 果 是 写 直 达 Cache， 那 么 就 不 需要 额外 的 互连网 络 
开销 ， 因 为 每 个 核 都 能 “监测 ” 写 ; 如 果 是 写 回 Cache， 那 么 就 需要 额外 的 通信 ， 因 为 对 Cache 
的 更 新 不 会 立即 发 送 给 内 存 。 

基于 目录 的 Cache 一 致 性 协议 

不 幸 的 是 ， 在 大 型 网 络 上 ， 广 播 是 非常 昂贵 的 。 监 听 Cache 一 致 性 协议 每 更 新 一 个 变量 时 就 
需要 一 次 广播 (见习 题 2. 15) 。 所 以 监听 Cache 一 致 性 协议 是 不 可 扩展 的 ， 因 为 对 于 大 型 系统 ， 
它 会 导致 性 能 的 下 降 。 例 如 ， 假 如 有 一 个 具有 基本 分 布 式 内 存 结构 ( 见 图 2-4) 的 系统 ， 但 系统 
对 于 所 有 内 存 提供 单个 地 址 空间 。 所以， 核 0 能 够 访问 核 1 内 存 中 的 变量 x， 只 需要 简单 地 执行 
一 条 语句 ， 如 y = x (当然 ， 访 问 其 他 核 的 内 存 比 访问 自己 的 “局 部 ”内 存 要 慢 得 多 ， 但 这 是 另 
外 一 件 事 ) 。 从 原理 上 说 ， 这 样 的 系统 能 够 扩展 到 多 个 核 。 但 是 ， 监 听 Cache 一 致 性 协议 显然 是 
个 问题 ， 因 为 在 互连网 络 间 的 广播 相对 于 访问 局 部 内 存 是 相当 慢 的 。 

基于 目录 的 Cache 一 致 性 协议 通过 使 用 一 个 叫做 目录 (directory) 的 数据 结构 来 解决 上 面 的 
问题 。 目 录 存 储 每 个 内 存 行 的 状态 。 一 般 地 ， 这 个 数据 结构 是 分 布 式 的 ， 在 我 们 的 例子 中 ， 每 个 
核 / 内 存 对 负责 存储 一 部 分 的 目录 。 这 部 分 目录 标识 局 部 内 存 对 应 高 速 缓 存 行 的 状态 。 因 此 ， 当 
一 个 高 速 缓存 行 被 读 人 时 ， 如 核 0 的 Cache， 与 这 个 高 速 缓存 行 相对 应 的 目录 项 就 会 更 新 ， 表示 
核 0 有 这 个 行 的 副本 。 当 一 个 变量 需要 更 新 时 ， 就 会 查询 目录 ， 并 将 所 有 包含 该 变量 高 速 缓存 行 
置 为 非法 。 

显然 目录 需要 大 量 额 外 的 存储 空间 ， 但 是 ， 当 一 个 Cache 变量 更 新 时 ， 只 需要 与 存储 这 个 变 
量 的 核 交 涉 (对 应 的 部 分 目录 在 这 个 核 上 )。 

伪 共 享 

CPU Cache 是 由 硬件 来 实现 的 ， 记 住 这 一 点 非常 重要 ， 因 为 硬件 是 对 高 速 缓存 行进 行 操 作 的 
而 不 是 对 单独 的 变量 进行 操作 。 这 个 特点 可 能 会 给 性 能 带 来 极 坏 的 影响 。 举 例 来 说 ， 假 如 需要 重 
复 地 调用 一 个 函数 f(i,j)， 并 将 计算 的 值 添加 到 一 个 向 量 中 : 


30“' 并 行程 序 设计 导论 


int i, Jj, m, Nn: 
double y[m]; 


/x* Assignr y = 0 */ 


for (i = 0; 1 < m; i++) 
for (j = 0; j < Nn: j++) 
y[Li] += f(i,j); 
为 了 将 程序 并 行 化 ,我 们 可 以 将 外 部 循环 的 各 次 迭代 分 配给 各 个 处 理 器 核 来 处 理 。 假 如 有 
core_count 个 核 ， 可 能 把 第 一 个 m/core_count 个 迭代 分 配给 第 一 个 核 , 下 一 个 mVcore_ 
count 个 迭代 分 配给 第 二 个 核 ， 以 此 类 推 。 


jx Private variables */ 
int i, j, iter_count. 


/* Shared variables initialized by one core */ 
int m, Nn, core_count 
double y[m]: 


iter-count = m/core.count 


/+ Core 0 does this */ 
for (i = 0; i < iter_count; i++) 
for (j= 0; j < Nn; j++) 
yLi] += f(i,j):; 


/* Core 1 does this */ 
for (i = iter.count+l; i < 2*iter.count; i++) 
for (j] = 0; j < nN; j++) 
y[Li] += f(i,j); 


现在 假设 共享 内 存 系统 有 两 个 核 , m =8， 双 精度 浮 点 数 长 度 为 8 字 节 ， 高 速 缓存 行 是 64 字 
节 ，y[0] 存 储 在 高 速 缓存 行 的 起 始 位 置 。 一 个 高 速 缓存 行 能 够 存储 8 个 双 精 度 浮 点 数 ，y 占 一 整 
个 高 速 缓存 行 。 当 核 0 和 核 1 同时 执行 代码 时 ， 会 发 生 什么 情况 呢 ? 因为 y 的 所 有 值 都 存储 在 单 
个 高 速 缓存 行 中 ， 所 以 每 次 一 个 核 执行 语句 y[i]+ =f(i,j) 时 ， 高 速 缓存 行 就 会 失效 ， 当 另 一 
个 核 尝 试 执行 该 语句 时 ， 就 必须 从 内 存 中 将 更 新 过 的 高 速 缓存 行 取出 。 所 以 ， 如 果 很 大 ， 尽 管 
核 0 和 核 1 不 会 访问 y 中 对 方 的 元 素 ， 但 我 们 能 预料 到 ， 大 量 的 赋值 操作 y[ i] + =f(1i,j) 会 访 
问 主 存 。 这 称 为 伪 夫 享 。 因 为 系统 表现 的 好 像 核 之 间 会 共享 y。 

注意 ， 伪 共享 不 会 引发 错误 结果 ， 但 是 ， 它 能 引起 过 多 不 必要 的 访 存 ， 降 低 程 序 的 性 能 。 可 
以 通过 在 线程 或 者 进程 中 临时 存储 数据 ， 再 把 临时 存储 的 数据 更 新 到 共享 存储 来 降低 伪 共享 带 来 
的 影响 。 第 4 章 和 第 5 章 将 探讨 这 个 问题 。 


2. 3.5 共享 内 存 与 分 布 式 内 存 

并 行 计算 的 新 手 有 时 想 知 道 为 什么 不 是 所 有 的 MIMD 系统 都 是 共享 内 存 的 ， 因 为 大 多 数 程 序 
员 觉 得 通过 共享 数据 结构 隐 式 地 协调 多 个 处 理 器 的 工作 ， 比 显 式 地 发 送 消 息 更 吸引 人 。 但 这 里 有 
一 些 问题 ， 我 们 会 在 讨论 分 布 式 或 者 共享 内 存 软件 时 提 到 一 些 。 但 是 ， 主 要 的 硬件 方面 的 问题 是 
互连网 络 扩展 的 代价 。 当 向 总 线 增 加 处 理 器 时 ， 访 问 总 线 发 生 冲 突 的 可 能 性 又 升 。 所 以 总 线 适 合 
于 那些 处 理 器 数目 较 少 的 系统 。 大 型 的 交叉 开关 矩阵 是 非常 昂贵 的 ， 所 以 使 用 大 型 交叉 开关 和 矩阵 
互 连 的 系统 也 是 比较 少见 的 。 另 一 方面 ， 分 布 式 内 存 互 连 网 络 ， 如 超 立 方 体 、 环 面 网 格 相对 便宜 
一 些 ， 有 成 干 上 万 个 处 理 器 的 分 布 式 系统 就 是 用 这 种 互连网 络 或 者 其 他 构建 的 。 因 此 ， 分布 式 内 

存 系统 比较 适合 于 那些 需要 大 量 数据 和 计算 的 问题 。 
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2.4 并 行 软件 

并 行 硬件 的 时 代 已 经 来 了 。 几 乎 所 有 的 台式 机 和 服务 器 都 使 用 多 核 。 但 对 并 行 软件 不 适用 。 
除了 操作 系统 、 数 据 库 系统 、Web 服务 器 外 ， 目 前 能 够 充分 利用 并 行 硬件 特点 的 商业 软件 很 少 。 
正如 第 1 章 所 提 到 的 ， 不 再 能 通过 硬件 和 编译 器 为 应 用 提供 性 能 上 的 稳定 增长 了 。 假 如 我 们 继续 
追求 应 用 性 能 和 应 用 功效 上 的 增长 ， 软 件 开 发 人 员 必 须 学 会 编写 能 够 利用 共享 内 存 或 者 分 布 式 内 
存 体系 结构 潜力 的 应 用 程序 。 本 节 中 , 我 们 简要 地 学 习 编 写 并 行 系统 上 的 软件 所 涉及 的 问题 。 

首先 是 一 些 术 语 。 通 常 ， 在 运行 共享 内 存 系统 时 ， 会 启动 一 个 单独 的 进程 ， 然 后 派生 (folk) 
出 多 个 线程 。 所 以 当 我 们 谈论 共享 内 存 程序 时 ， 我 们 指 的 是 正在 执行 任务 的 线程 。 另 一 方面 ， 当 
我 们 运行 分 布 式 内 存 程序 时 ， 我 们 使 用 的 是 多 个 处 理 器 ， 所 以 我 们 指 的 是 正在 执行 任务 的 进程 。 
当 讨 论 对 共享 内 存 系 统 和 分 布 式 内 存 系统 同样 适用 时 ， 我 们 指 的 是 执行 任务 的 进程 或 者 线程 。 


2.4.1 注意 事项 

在 继续 介绍 之 前 ,需要 强调 本 节 的 一 些 限制 。 首 先 ， 在 本 书 余下 的 部 分 中 ,我 们 只 讨论 
MIMD 系统 的 软件 。 例 如 ， 尽 管 使 用 GPU 作为 并 行 计算 的 平台 在 迅速 增多 ,但 GPU 的 应 用 程序 
编程 接口 与 标准 的 MIMD 的 API 有 很 大 差别 。 其 次 ,我们 强调 ,我们 所 涉及 的 只 是 给 出 问题 的 概 
念 而 不 是 尝试 深入 理解 问题 。 

最 后 ,我 们 主要 关注 的 是 称 为 单程 序 多 数据 流 (Single Program，Multiple Data，SPMD) 程 
序 。SPMD 程序 不 是 在 每 个 核 上 运行 不 同 的 程序 ， 相 反 ，SPMD 程序 仅 包含 一 段 可 执行 代码 ， 通 
过 使 用 条 件 转移 语句 ， 可 以 让 这 一 段 代码 在 执行 时 表现 得 像 是 在 不 同 处 理 器 上 执行 不 同 的 程序 。 
例如 ， 


if (I’m thread/process 0) 
do this; 

else 
do that: 


可 以 看 到 ，SPMD 程序 也 能 够 实现 数据 并 行 ， 例 如 ， 


if (1l’m thread/process 0) 

operate on the first half of the array: 
else /x I'm thread/process 1 *#/ 

operate on the second half of the array; 


如 果 一 个 程序 是 通过 将 任务 划分 , 分 给 各 个 进程 或 者 线程 来 实现 并 行 , 则 称 它 是 任务 并 行 


(task parallel) 。 第 一 个 例子 清楚 地 表明 ，SPMD 程序 也 能 够 实现 任务 并 行 性 (task parallelism ) 。 


2. 4. 2 ”进程 或 线程 的 协调 
只 有 在 极 少数 的 情况 下 ， 获 取 好 的 并 行 性 能 是 容易 的 。 例 如 ， 假 如 有 两 个 数组 ， 我 们 想 要 将 
它们 相 加 : 


double x[n], y[n]; 
for Cint i=0; i < ni i++) 
x[i] += y[i]; 

为 了 并 行 化 这 段 代码 ， 只 需要 将 数组 中 的 元 素 分 配给 线程 或 者 进程 。 例 如 ， 假 如 有 P 个 进程 
/线程 ， 我 们 可 能 让 进程 /线程 0 (也 可 称 为 0 号 进程 /线程 ) 负责 元 素 0，…，mp -1 的 相 加 ， 进 
程 /线程 1 负责 n/p，…，2n/p -1 元 素 的 相 加 ， 以 此 类 推 。 

所 以 ,在 这 个 例子 中 ， 程 序 员 只 需要 做 : 

(1) 将 任务 在 进程 /线程 之 间 分 配 
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1) 这 个 分 配 可 以 使 得 每 个 进程 /线程 获得 大 致 相等 的 工作 量 , 并 且 

2) 这 个 分 配 可 以 使 得 需要 的 通信 量 是 最 小 的 。 

需要 在 进程 /线程 之 间 平 均 分 配 任务 从 而 满足 条 件 1) ， 这 称 为 负载 均衡 (load balancing) 。 分 
配 任务 需要 满足 的 这 两 个 条 件 是 显而易见 的 ， 但 也 是 非常 重要 的 。 在 许多 情况 下 ， 不 需要 对 它们 
进行 过 多 的 思考 ， 它 们 通常 在 程序 员 不 事先 知道 工作 量 而 是 在 程序 运行 时 生成 工作 量 的 情况 下 才 
需要 考虑 。 例 如 ， 第 6 章 中 的 树 搜索 问题 。 

将 串 行 程序 或 者 算法 转换 为 并 行程 序 的 过 程 称 为 并 行 化 ( parallelization) 。 某 些 程序 ， 如 果 能 
够 通过 简单 地 将 任务 分 配给 进程 /线程 来 实现 并 行 化 , 我 们 称 该 程序 是 易 并 行 的 〈embarrassingly 
parallel) 。 不 幸 的 是 ， 程 序 员 编写 易 并 行 的 程序 并 不 容易 ， 相 反 ， 如 果 能 成 功 设计 出 一 种 将 任何 
问题 都 并 行 化 的 方法 ， 那 么 这 真是 一 件 大 喜事 。 

但 是 ， 大 部 分 问题 是 很 难 找到 并 行 方案 的 。 正 如 在 第 1 章 中 看 到 的 ， 对 于 这 些 问题 ， 我 们 需 
要 协调 进程 /线程 之 间 的 工作 。 在 这 些 程序 中 ， 通 常 还 需要 ， 

(2) 安排 进程 /线程 之 间 的 同步 

(3) 安排 进程 /线程 之 间 的 通信 

最 后 两 个 问题 往往 是 相关 的 。 例 如 ， 在 分 布 式 内 存 程序 中 ， 经常 通 过 进程 间 通 信 来 隐 式 地 同 
步 进程 ; 而 在 共享 内 存 系统 中 ， 经 常 需要 通过 同步 来 实现 线程 间 的 通信 。 我 们 会 在 下 面 详细 地 探 
讨 这 两 个 问题 。 

2.4.3 共享 内 存 

正如 我 们 在 前 面 提 到 的 ， 在 共享 内 存 系统 中 ， 变 量 可 以 是 共享 的 〈shared) 或 者 私有 的 〈 pri- 
vate) 。 共 享 变量 可 以 被 任何 线程 读 、 写 ， 而 私有 变量 只 能 被 单个 线程 访问 。 线 程 间 的 通信 是 通过 
共享 变量 实现 的 ， 所 以 通信 是 隐 式 的 ， 而 不 是 显 式 的 。 

动态 线程 和 静态 线程 

在 许多 情况 下 ， 共 享 内 存 程序 使 用 的 是 动态 线程 。 在 这 种 范式 中 ， 有 一 个 主线 程 ， 并 在 任何 
时 刻 都 有 一 组 工作 线程 (可 能 为 空 ) 。 主 线程 通常 等 待 工作 请 求 〈 例 如， 通过 网 络 ) ， 当 一 个 请 
求 到 达 时 ， 它 派生 出 一 个 工作 线程 来 执行 该 请 求 。 当 工作 线程 完成 任务 ， 就 会 终止 执行 再 合并 到 
主线 程 中 。 这 种 模式 充分 利用 了 系统 的 资源 ， 因 为 线程 需要 的 资源 只 在 线程 实际 运行 时 使 用 。 

另 一 种 程序 运行 模式 是 静态 线程 范式 。 在 这 种 范式 中 ， 主 线程 在 完成 必需 的 设置 后 ， 派 生出 
所 有 的 线程 ， 在 工作 结束 前 所 有 的 线程 都 在 运行 。 当 所 有 的 线程 都 合并 到 主线 程 后 ， 主 线程 需要 
做 一 些 清理 工作 (如 释放 内 存 ) ， 然 后 也 终止 。 在 资源 利用 方面 ， 这 个 范式 可 能 不 是 很 高 效 ， 如 
果 线 程 空闲 ， 它 的 资源 〈 如 栈 、 程 序 计数 器 等 ) 不 能 被 释放 。 但 是 ， 线 程 的 派生 和 合并 操作 是 很 
耗 时 的 。 所 以 如 果 所 需 的 资源 是 可 用 的 ， 静 态 线程 模式 有 潜力 比 动态 线程 获得 更 高 的 性 能 。 它 也 
更 加 接近 于 分 布 式 内 存 编程 中 最 广泛 使 用 的 模式 。 既 然 静 态 线程 范式 适用 于 一 种 系统 ， 也 适用 于 
另 一 种 系统 ， 因 此 ， 我 们 会 经 常 使 用 静态 线程 范式 。 

非 确定 性 

在 任何 一 个 MIMD 系统 中 ， 如 果 处 理 器 异步 执行 ,那么 很 可 能 会 引发 非 确定 性 。 给 定 的 输入 
能 产生 不 同 的 输出 ,这 种 计算 称 为 非 确定 性 。 如 果 多 个 线程 独立 执行 任务 ， 每 次 运行 时 它们 完成 
语句 的 速度 各 不 相同 ， 那 么 程序 的 结果 也 不 同 。 举 个 简单 的 例子 ， 有 两 个 线程 ， 一 个 标志 符 为 0， 
男 一 个 为 1， 每 个 线程 都 有 一 个 私有 变量 my_x。 线 程 0 中 my_x 的 值 是 7， 而 线程 1 中 my_x 的 值 
是 19。 此 外 ， 假 设 两 个 线程 都 执行 下 面 的 代码 : 


Printf(t "Thread %d > my-val = %d\n", my_rank, my_x): 
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输出 可 能 是 : 


Thread 0 > my-val 
Thread 1 > my-val 


但 也 有 可 能 是 : 


Thread 1 > my-val = 19 
Thread 0 > my-val = 7 


实际 上 ， 人 情况 可 能 更 糟糕 ， 一 个 线程 的 输出 可 能 被 另 一 个 线程 的 输出 所 打 断 。 然 而 ， 这 里 的 
情况 是 ， 因 为 线程 独立 执行 并 且 独 立地 与 操作 系统 交互 ， 执 行 一 个 线程 完成 一 段 语句 所 花 的 时 间 
在 不 同 次 的 执行 也 是 不 同 ， 所 以 语句 执行 的 顺序 是 不 能 预测 的 。 

在 许多 情况 下 ， 非 确定 性 并 不 是 问题 在 我 们 的 例子 中 ， 因 为 我 们 将 输出 标记 了 线程 的 标 
号 ， 所 以 输出 的 顺序 就 没有 关系 了 。 但 在 其 他 情况 下 ， 尤 其 是 在 共享 内 存 程序 中 ， 非 确定 性 是 灾 
难 性 的 ， 因 为 它们 很 容易 导致 程序 错误 。 下 面 是 一 个 简单 的 例子 。 

假设 每 个 线程 计算 一 个 int 型 整数 ， 这 个 int 型 整数 存储 在 私有 变量 my_val 中 。 假 设想 
要 将 my_yal 的 值 加 到 共享 内 存 的 x 位 置 中 ，x 初始 化 为 0。 两 个 线程 都 要 执行 下 面 的 代码 : 


my-val = Compute_val (my_rank); 
x += My_val; 


一 次 加 法 操作 通常 需要 将 两 个 数 加 载 到 寄存 器 、 相 加 ， 最 后 存储 结果 。 为 了 使 过 程 简单 化 ， 
假设 值 加 载 时 ， 是 从 主 存 中 直接 加 载 到 寄存 器 中 ; 在 存储 时 ， 直 接 将 值 从 寄存 器 存储 到 主 存 中 。 
下 面 是 一 个 可 能 的 事件 顺序 : 


人 
OO 


























时 间 核 0 核 1 
0 完成 对 my_val 的 赋值 正在 调用 Compute_val 
1 | 将 x =0 装载 人 寄存 器 完成 对 my_val 的 赋值 
2 将 my_val =7 装载 人 寄存 器 将 x =0 装载 人 寄存 器 
3 将 my_val =7 与 x 相 加 将 my_val =19 装载 人 寄存 器 
4 存储 x=7 将 my_val 与 x 相 加 
5 开始 其 他 工作 存储 x =19 








显然 这 不 是 我 们 想 要 的 ， 也 很 容易 想象 到 ， 有 其 他 事件 顺序 会 产生 一 个 x 的 不 正确 值 。 这 里 
的 非 确定 性 是 两 个 线程 尝试 同时 更 新 内 存 区 域 x 而 造成 的 。 当 线程 或 者 进程 尝试 同时 访问 一 个 资 


源 时 ， 这 种 访问 会 引发 错误 ， 我 们 经 常 说 程序 有 竞争 条 件 (race condition) ， 因 为 线程 或 者 进程 处 [50] 


于 竞争 状态 下 。 即 程序 的 输出 依赖 于 赢得 竞争 的 进程 或 者 线程 。 在 我 们 的 例子 中 ， 线 程 竞争 执行 
x+ =my_val。 在 这 种 情况 下 ， 除 非 一 个 线程 在 男 一 个 线程 开始 前 ,计算 完成 x + =my_val， 
结果 才 是 正确 的 。 一 次 只 能 被 一 个 线程 执行 的 代码 块 称 为 临界 区 (critical section) ， 通 常 是 程序 
员 的 责任 来 保证 互 斥 地 访问 临界 区 。 换 句 话 说， 我们 需要 保证 如 果 一 个 线程 在 临界 区 中 执行 代 
码 ， 其 他 线程 需要 被 排除 在 临界 区 外 。 

保证 互 斥 执行 的 最 常用 机 制 是 互 斥 锁 (mutual exclusion clock)， 或 者 互 斥 量 (mutex) ， 或 者 
锁 (lock) 。 互 斥 量 是 由 硬件 支持 的 一 个 特殊 类 型 的 对 象 。 基 本 思想 是 每 个 临界 区 由 一 个 锁 来 保 
护 。 在 一 个 线程 能 够 执行 临界 区 中 的 代码 前 ， 它 必须 通过 调用 一 个 互 斥 量 机 数 来 获取 互 斥 量 ， 在 
执行 完 临 界 区 代码 时 ， 通 过 调用 解锁 函数 来 释放 互 斥 量 。 当 一 个 线程 “拥有 ” 锁 时 ， 即 从 调用 加 
锁 函 数 返 回 但 还 没有 调用 解锁 函数 时 ， 其 他 线程 尝试 执行 临界 区 中 的 代码 必须 在 调用 加 锁 渗 数 时 
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等 待 。 
因此 ， 为 了 保证 代码 正常 运行 ， 我 们 必须 修改 代码 ， 使 得 它 看 起 来 像 : 


my-val = Compute_val(my.rank); 
Lock(&add my.val_lock); 

x += My-val: 
Unlock(&add_my_val_lock}); 


这 保证 了 每 次 只 有 一 个 线程 执行 语句 x + =my_val1。 这 段 代 码 在 线程 上 没有 施加 任何 预定 的 顺 
序 。 或 者 线程 0 或 者 线程 1 能 够 先 执行 x+ =my_val。 

还 需要 注意 的 是 ， 使 用 互 斥 量 加 强 了 临界 区 的 捉 行 性 ( serialization)。 因 为 在 临界 区 中 ， 一 
次 只 有 一 个 线程 能 执行 代码 。 代 码 被 有 效 地 串 行 化 了 了。 因此， 我 们 希望 代码 尽 可 能 少 地 包含 临界 
区 ， 并 且 临 界 区 尽 可 能 地 短 。 

还 有 其 他 可 以 替代 互 斥 量 的 方式 。 在 性 等 待 〈busy-waiting) 时 ， 一 个 线程 进入 一 个 循环 ， 这 
个 循环 的 目的 只 是 测试 一 个 条 件 。 在 我 们 的 例子 中 ,假设 共享 变量 ok_for_1 初始 化 为 false， 下 
面 的 代码 能 够 保证 只 有 在 线程 0 将 ok_for_1 置 为 ture 后 , 线程 1 才能 更 新 x: 


myval = Compute_val (my._rank): 
if (my_rank == 1) 
While (!ok_for_l); /Ax* Busy~wait Toop */ 
x += My_val; Ark Critical section */ 
if (my-rank == 0) 
OK_for-l = true; /*# Let thread 1 update x */ 


所 以 ， 直 到 线程 0 执行 ok_for_1 =true 完 后 ,线程 1 一 直 陷 在 循环 while(! ok_for_l) 中 ， 
BD 这 个 循环 称 为 “ 忙 等 待 ”"， 因 为 线程 忙 着 等 待 条 件 。 这 个 程序 的 优点 是 易于 理解 和 实现 。 但 是 ， 
它 浪费 系统 的 资源 ， 因 为 即使 线程 在 做 无 用 功 ， 执 行 该 线程 的 核 还 是 会 重复 的 检查 是 否 能 进入 临 
界 区 。 信 号 量 (semaphore) 与 互 斥 量 类 似 ， 尽 管 它们 的 行为 细节 有 些许 不 同 。 对 某 些 类 型 的 线 
程 ， 使 用 信号 量 实现 同步 比 用 互 斥 量 实 现 要 简单 。 监 视 器 ( monitor) 能 够 在 更 高 层次 提供 互 斥 执 
行 。 监 视 器 是 一 个 对 象 ， 这 个 对 象 的 方法 ， 一 次 只 能 被 一 个 线程 执行 。 我 们 将 在 第 4 章 中 讨论 繁 
忙 等 待 和 信和 号 量 。 

目前 , 还 有 很 多 其 他 同步 方法 正在 研究 中 ， 但 没有 被 广泛 地 使 用 。 其 中 受到 最 多 关注 的 是 事 
务 内 存 (transactional memory) 。 在 数据 库 管 理 系统 中 ， 事 务 是 系统 访问 数据 库 的 单位 。 例 如 ， 从 
你 的 储蓄 账户 向 你 的 支票 账户 转账 1000 美元 ， 银 行 软件 应 该 认为 是 一 个 事务 ， 所 以 软件 在 没有 
将 钱 款 加 入 你 的 支票 账户 时 ， 不 会 减少 你 储 革 账户 中 的 金 额 。 如 果 软 件 减少 了 你 储蓄 账户 中 的 金 
额 ， 却 没有 将 钱 款 加 入 你 的 支票 账户 ， 事 务 就 要 回 滚 。 换 句 话 说， 事务 应 该 要 人 么 全 部 执行 ， 要 么 
都 不 执行 。 事 务 内 存 背后 的 基本 思想 是 将 共享 内 存 系统 中 的 临界 区 看 做 事务 。 要 么 一 个 线程 成 功 
地 完成 临界 区 代码 ， 要 么 所 有 的 部 分 结果 回 滚 ， 临 界 区 代码 重复 执行 。 

线程 安全 性 

在 许多 、 但 不 是 大 部 分 情况 下 ， 并 行程 序 能 够 调用 为 串 行程 序 开 发 的 函数 ， 并 且 不 会 产生 问 
题 。 但 是 ， 有 一 些 值 得 注意 的 例外 。 对 于 5 程序 员 来 说 ， 最 重要 的 例外 是 使 用 静态 局 部 变量 的 函 
数 。 普 通 C 语言 局 部 变量 〈 在 函数 中 声明 的 变量 ) ， 是 从 系统 栈 中 分 配 出 来 的 。 因 为 每 个 线程 有 
自己 的 栈 ， 所 以 普通 的 C 局 部 变量 是 私有 的 。 但 是 ,在 涌 数 中 声明 的 静态 变量 ， 在 函数 调用 时 不 
会 被 销毁 。 因 此 ， 静 态 变量 能 够 被 调用 函数 的 线程 共享 ， 这 会 引起 无 法 预测 和 不 必要 的 后 果 。 

例如 ，C 语言 String 库 函 数 的 strtok ， 将 一 个 输入 字符 串 分 成 多 个 子 字符 串 。 当 它 第 一 次 
调用 时 ,传递 一 个 待 分 割 的 字符 串 ， 而 在 随后 的 调用 中 ， 它 返回 分 割 好 的 连续 的 子 串 。 在 第 一 次 
调用 时 , 通过 一 个 静态 的 cnar * 变量 来 指示 传递 给 它 的 字符 串 。 现 在 ， 假 设 有 两 个 线程 要 将 字 
符 串 分 割 成 字 串 。 首 先 ， 线 程 0 对 strtok 进行 了 首次 调用 ， 然 后 在 线程 0 完成 分 割 字 串 操作 完 


第 2 章 并行 硬件 和 并 行 软件 * 35 


成 前 ,线程 1 就 进行 了 对 strtok 的 首次 调用 ， 这 样 会 导致 线程 0 的 字符 串 丢 失 或 者 覆盖 ， 在 随 
后 的 调用 时 它 会 得 到 线程 1 的 字 串 。 

类 似 strtok 这 样 的 函数 不 是 线程 安全 的 。 这 意味 着 ， 如 果 它 被 多 线程 程序 使 用 ， 那么 会 产 
生 错 误 或 者 未 知 结果 。 当 一 段 代 码 不 是 线程 安全 的 ,通常 是 因为 不 同 的 线程 在 访问 共享 的 数据 。 
因此 ， 正 如 我 们 看 到 的 ， 即 使 许多 串 行 程序 能 够 在 多 线程 程序 中 安全 地 使 用 ( 即 它们 是 线程 安全 
的 ) ， 程 序 员 仍然 需要 谨慎 使 用 那些 专门 为 串 行程 序 编写 的 函数 。 我 们 将 在 第 4 章 和 第 5 章 中 研 
究 线程 安全 。 


2.4.4 分 布 式 内 存 

在 分 布 式 内 存 程序 中 ,各 个 核能 够 直接 访问 自己 的 私有 内 存 。 目 前 已 经 有 了 许多 可 以 使 用 的 
分 布 式 内 存 编程 API。 但是， 最 广泛 使 用 的 是 消息 传递 。 所 以 ,在 本 节 中 ， 我们 主要 介绍 消息 传 
递 。 然 后 ,我 们 会 简略 地 看 看 其 他 的 、 较 少 使 用 的 API。 

也 许 对 于 分 布 式 内 存 应 用 程序 编程 接口 来 说 ， 首 先 要 考虑 的 一 点 就 是 : 它 也 能 在 共享 内 存 硬 
件 上 使 用 。 这 完全 是 可 行 的 。 对 于 程序 员 来 说 ， 只 是 从 逮 辑 上 将 共享 内 存 分 割 成 私有 的 地 址 空 
间 ， 给 各 个 线程 使 用 , 并 使 用 库 函 数 或 者 编译 器 实现 所 需要 的 通信 。 

正如 我 们 前 面 提 到 的 ， 分 布 式 内 存 程 序 通 常 执行 多 个 进程 而 不 是 多 个 线程 。 这 是 因为 在 分 布 
式 内 存 系统 中 ， 典 型 的 “执行 的 线程 ”是 在 独立 的 CPU 中 独立 的 操作 系统 上 运行 的 ， 目 前 还 没 
有 软件 架构 可 以 启动 一 个 简单 的 “分 布 式 ”进程 ， 使 该 进程 能 在 系统 中 的 各 个 节点 上 再 派生 出 更 
多 的 线程 来 。 

消息 传递 

消息 传递 的 API (至 少 ) 要 提供 一 个 发 送 和 一 个 接收 函数 。 进 程 之 间 通 过 它们 的 序号 
(rank) 互相 识别 。 序 号 的 范围 从 0 ~p - 1， 其 中 5p 表示 进程 的 个 数 。 例 如 ， 进 程 1 (也 可 称 为 ] 
号 进程 ) 可 以 使 用 下 面 的 伪 代 码 向 进程 0 发 送 消 息 : 


char message[100]; 


my rank = Get_rank(): 
if (my-rank == 1) { 
sprintf(message, "Greetings from process 1°"); 
Send(message, MSG_CHAR, 100, 0): 
} else if (my-rank == 0) { 
Receive(message, MSG_CHAR, 100, 1); 
printf("Process 0 > Received: %s\n". message); 
} 
这 里 的 Get_rank 函数 返回 调用 进程 的 序号 。 然 后 进程 的 分 支 依赖 于 它们 的 序号 。 进 程 1 用 C 标 
准 库 中 的 Sprintf 函数 创建 消息 ， 并 且 调 用 Send 发 送 消息 给 进程 0。 函数 调用 的 参数 依次 是 : 
消息 、 消 息 元 素 的 类 型 (MSG_CHAR) 、 消 息 中 元 素 的 个 数 (100)、 目 标 进程 的 序号 (0)。 另 一 
方面 ， 进 程 0 使 用 下 列 参 数 调用 Receive 函数 : 存放 将 要 接收 到 消息 的 变量 (message) 、 消 息 
元 素 的 类 型 、 能 够 存储 消息 元 素 的 个 数 和 发 送 消息 进程 的 序号 。 在 完成 调用 Receive 后 ， 进 程 0 
将 消息 打印 出 来 。 
这 里 有 几 点 值得 注意 。 第 一 点 ， 程 序 段 是 SPMD。 两 个 进程 使 用 相同 的 可 执行 代码 ， 但 执行 
不 同 的 操作 。 在 这 种 情况 下 ， 它 们 所 执行 的 操作 依赖 于 它们 的 序号 。 第 二 点 ， 在 不 同 进程 中 ，, 变 
量 message 指 的 是 不 同 的 内 存 块 。 程序 员 经 常 通过 使 用 如 my._message、1ocal_message 这 
样 的 变量 名 来 强调 这 一 点 。 第 三 点 ， 我 们 假设 线程 0 能 够 写 stdout 。 通 常情 况 下 ， 即 使 消息 传 
递 API 没有 显 式 的 支持 ， 但 大 多 数 实现 消息 传递 的 API 程序 都 允许 所 有 的 进程 访问 stdout 和 
stderr。 我们 将 在 后 面 进一步 探讨 0。 
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Send 和 Receive 函数 的 行为 可 以 有 很 多 种 ， 大 多 数 消息 传递 API 提供 多 个 不 同 的 发 送 和 接 
收 函数 。 调 用 Send 函数 最 简单 的 行为 是 阻塞 (block) 直到 对 应 的 Receive 函数 开始 接收 数据 
为 止 。 这 意味 着 Send 函数 调用 不 会 返回 ， 直 到 对 应 的 Receive 函数 启动 为 止 。 另 一 种 选择 可 
以 是 ，Send 函数 将 消息 的 内 容 复制 到 它 私有 的 存储 空间 中 ， 在 数据 复制 完 之 后 立即 返回 。Re - 
ceive 函数 最 常见 的 行为 是 阻塞 直到 消息 被 接收 。Send 和 Receive 函数 还 有 其 他 可 能 的 实现 
方式 ,我 们 将 在 第 3 章 中 讨论 。 

典型 的 消息 传递 API 还 提供 了 许多 其 他 的 函数 。 例 如 ， 提 供 各 种 “集合 ” (eollective) 通信 
的 函数 ， 如 广播 (broadecast) 。 在 广播 通信 中 ， 单 个 进程 传送 相同 的 数据 给 所 有 的 进程 。 又 例如 
归 约 (reduction) ， 在 归 约 函数 中 ， 将 各 个 进程 计算 的 结果 汇总 成 一 个 结果 。 例 如 ， 对 各 个 进程 
计算 出 的 值 相 加 求 总 和 。 还 有 一 些 管 理 进程 和 复杂 数据 结构 通信 的 特殊 函数 。 对 于 消息 传递 ， 最 
常 使 用 的 API 是 消息 传递 接口 (Message Passing Interface，MPI) 。 我 们 将 在 第 3 章 中 深入 研究 。 

消息 传递 是 开发 并 行程 序 的 利器 。 几 乎 世界 上 所 有 运行 在 最 强 计 算 机 上 的 程序 都 使 用 了 消息 
传递 。 但 是 ， 它 是 非常 底层 的 ， 程 序 员 需要 管理 很 多 细节 。 例 如 ， 为 了 将 一 个 串 行 程序 并 行 化 ， 
通常 需要 重 写 大 部 分 程序 。 程 序 中 的 数据 结构 要 么 被 每 个 进程 复制 ， 要 人 么 被 显 式 地 分 布 在 各 个 进 
程 中 。 此 外 ， 重 写 程序 不 能 增 量 地 完成 。 如 果 一 个 数据 结构 在 程序 中 的 多 个 部 分 使 用 ， 在 并 行 部 
分 将 它 分 布 在 各 个 进程 之 中 ， 在 串 行 部 分 将 它 收集 ， 这 样 的 代价 会 比较 昂贵 。 因 此 ， 消 息 传递 有 
时 称 为 “并 行 编程 的 汇编 语言 ” ， 因 此 也 有 许多 尝试 开发 其 他 分 布 式 内 存 API 的 方法 。 

单 向 通信 

在 消息 传递 中 ， 一 个 进程 必须 调用 一 个 发 送 函 数 ， 并 且 发 送 函 数 必须 与 男 一 个 进程 调用 的 接 
收 函 数 相 匹配 。 任 何 通信 都 需要 两 个 进程 的 显 式 参 与 。 在 单 向 通信 (one-sided communication) 或 
者 远程 内 存 访 问 (remote memory access) 中 ， 单 个 处 理 器 调用 一 个 函数 。 在 这 个 函数 中 ， 或 者 用 
来 自 另 一 个 进程 的 值 来 更 新 局 部 内 存 ， 或 者 使 用 来 自 手 调用 进程 的 值 更 新 远 端 内 存 。 这 种 方式 能 
够 简化 通信 ， 因 为 它 只 需要 一 个 进程 的 参与 。 此 外 ， 它 还 消除 了 两 个 进程 间 同 步 的 代价 ， 有 效 地 
降低 了 通信 的 开销 。 它 取消 了 一 个 函数 《发 送 或 者 接收 ) ， 也 可 以 减少 开销 。 

但 是 ， 实 际 上 其 中 的 某 些 优点 是 很 难 实现 的 。 例 如 ， 如 果 进 程 0 将 一 个 值 复制 到 进程 1 的 
内 存 空间 中 ， 那 么 进程 0 必须 有 一 些 方法 来 知道 复制 的 安全 性 。 因 为 它 可 能 会 将 某 些 内 存 区 域 
覆盖 。 进 程 1 也 必须 有 一 些 方法 来 知道 什么 时 候 内 存 区 域 被 更 新 了 。 第 一 个 问题 可 以 通过 在 复 
制 前 ， 将 两 个 进程 同步 来 解决 。 第 二 个 问题 可 以 通过 另 一 次 同步 或 者 使 用 一 个 “标志 ”变量 
来 解决 ， 这 个 标志 变量 是 在 进程 0 完成 复制 时 设立 的 。 在 后 一 种 方法 中 ， 进程 1 需要 轮 询 
(poll) 标志 变量 ， 直 到 它 得 到 一 个 表示 复制 的 数据 已 经 可 用 的 值 。 进 程 1 必须 不 断 的 检查 标志 
变量 的 值 ， 直 到 得 到 一 个 值 表明 进程 0 已 经 完成 复制 。 显 然 ， 这 些 问 题 会 大 大 地 增加 传送 数据 
的 开销 。 更 大 的 困难 是 ， 因 为 两 个 进程 间 没 有 显 式 的 交互 ， 所 以 远程 内 存 操作 会 引起 错误 并 且 
很 难 被 追踪 。 

划分 全 局 地 址 空间 的 语言 

许多 编程 人 员 发 现 ， 共 享 内 存 编程 比 消息 传递 或 者 单 向 通信 更 加 吸引 人 。 有 些 研究 小 组 正在 
开发 允许 在 分 布 式 内 存 硬件 上 使 用 共享 内 存 技术 的 并 行 编程 语言 。 这 可 不 像 听 起 来 那么 简单 。 如 
果 只 是 简单 地 编写 一 个 编译 器 , 这 个 编译 器 将 分 布 式 系统 中 所 有 分 散 的 内 存 看 做 一 个 大 内 存 ， 那 
么 程序 性 能 往往 会 比较 差 ， 即 使 在 最 好 的 情况 下 ， 程序 性 能 也 是 不 可 预测 的 。 因 为 每 次 一 个 执行 
进程 访 存 ， 它 访问 的 可 能 是 局 部 内 存 ， 即 只 属于 当前 执行 核 的 内 存 ， 也 可 能 是 远 端 内 存 ， 即 属于 
其 他 核 的 内 存 。 访 问 远 端 内 存 的 时 间 是 访问 局 部 内 存 时 间 的 数 百 倍 甚至 数 千 倍 。 举 个 例子 ， 考虑 
下 面 的 共享 内 存 向 量 加 法 的 伪 代 码 : 
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shared int n = ， 

shared double x[n], ‘yin: 

private int i, my.first. element, my-last_element: 
my-first-element = . . .; 

my-last_element = . . .; 


A#¥ Initialize x and y #/ 


for (i = my_first.element:; i <= my-1ast-element; i++) 
x[i] += y[i]; 

首先 声明 两 个 共享 数组 x 和 y。 然 后 在 进程 序号 的 基础 上 ， 我 们 决定 哪个 元 素 “ 属 于 ”哪个 进 
程 。 在 数组 初始 化 之 后 ， 每 个 进程 将 它们 各 自分 配 到 的 x 和 yy 数组 中 对 应 的 元 素 相 加 求 和 。 如 果 
Xx、y 中 分 配给 每 个 进程 的 元 素 都 正好 存储 在 运行 该 进程 的 核 所 拥有 的 内 存 中 ， 那 么 执行 代码 的 
速度 会 非常 快 。 但 是 ， 如 果 所 有 x 数组 的 元 素 都 分 配给 核 0， 所 有 y 数组 的 元 素 都 分 配给 给 核 1， 
那么 程序 的 性 能 会 非常 糟糕 ， 因 为 每 次 执行 赋值 操作 x[ i] + =y[ij 时 ， 进 程 都 需要 访问 远程 
内 存 。 

划分 全 局 地 址 空间 (Partitioned Global Address Space，PGAS) 语言 提供 了 一 些 共享 内 存 程 
的 机 制 。 它 们 给 程序 员 提供 了 一 些 工 具 ， 避 免 上 面 讨 论 的 问题 发 生 。 和 有 变量 在 运 和 和 的 该 的 
局 部 内 存 空间 中 分 配 ， 共 享 数据 结构 中 数据 的 分 配 由 程序 员 控 制 。 所 以 ， 程 序 员 知 道 共享 数组 中 
哪个 元 素 是 在 进程 的 本 地 内 存 中 。 

有 很 多 研究 项 目 在 研究 PGAS 语言 的 开发 ， 如 [7, 9, 45]。 


2. 4.5 混合 系统 编程 

我 们 应 该 注意 到 ， 在 类 似 多 核 处 理 器 集群 的 系统 中 使 用 混合 编程 方式 ， 即 在 节点 上 使 用 共享 
内 存 API， 而 在 节点 间 通 信使 用 分 布 式 内 存 API， 是 完全 可 能 的 。 但 是 ,通常 这 只 应 用 于 那些 想 
获得 高 性 能 的 系统 ， 因 为 混合 系统 API 的 复杂 性 使 得 程序 开发 极其 困难 。 可 以 参考 文献 [40] 中 
的 例子 。 一 般 情况 下 ， 这 样 的 系统 通常 用 分 布 式 内 存 API 来 实现 节点 内 和 节点 间 的 通信 。 


2.5 输入 和 输出 


通常 我 们 尽量 避免 输入 和 输出 方面 的 问题 。 这 里 有 很 多 原因 。 首 先 也 是 最 重要 的 是 ， 并 行 输 
和 人 输出、 多 个 核 访问 多 个 磁盘 或 者 其 他 设备 ， 可 以 专门 用 一 本 书 来 阐述 ， 如 参考 文献 [35] 。 其 
次 ， 我 们 开发 的 大 部 分 程序 仅 有 很 少 的 输入 和 输出 。 它 们 读 、 写 的 数据 量 非常 小 ， 很 容易 通过 标 
准 C 函数 printf、fprintf、scanf 和 fscanf 来 管理 。 但 是 ， 尽 管 我 们 很 少 使 用 这 些 函 数 ， 
但 它们 也 可 能 引起 一 些 问 题 。 因 为 这 些 函 数 是 标准 C 函数 的 一 部 分 ， 而 C 是 串 行 语 言 ， 并 没有 考 
虑 到 这 些 函数 被 不 同 的 进程 调用 时 ,会 发 生 什 么 。 另 一 方面 ， 单 个 进程 派生 出 的 多 个 线程 共享 
stdin、stdout 和 stderr。 但 是 (正如 我 们 看 到 的 )， 当 多 个 线程 尝试 访问 stdin、stdout 
和 stderr 其 中 的 一 个 时 ， 结 果 是 非 确定 的 ， 不 能 预测 会 发 生 什么 。 

当 从 多 个 进程 调用 printf 函数 时 ， 作 为 开发 人 员 ， 我 们 想 要 结果 输出 在 某 一 个 单一 系统 的 
显示 屏 上 ， 这 个 系统 是 我 们 启动 程序 的 那 台 机 器 。 实 际 上 ， 大 部 分 系统 都 是 这 人 么 做 的 。 但 是 我 们 
的 期 望 并 不 能 得 到 保证 ， 系 统 可 能 会 做 一 些 其 他 的 。 例 如 ， 只 有 一 个 进程 有 权 访 问 stdout 或 
stderr， 甚 至 没有 进程 有 权 访 问 stdout 或 stderr。 

当 我 们 运行 多 个 进程 时 ， 调 用 scanf 函数 会 发 生 什么 还 不 是 很 明确 。 输 入 应 该 在 各 个 进程 
间 平 分 吗 ? 或 者 只 有 一 个 进程 能 够 调用 scanf 吗 ? 大 部 分 系统 允许 至 少 一 个 进程 调用 scanf， 
通常 是 进程 0， 而 有 些 系 统 允 许 更 多 。 再 强调 一 遍 ， 有 些 系统 不 允许 任何 进程 调用 scanf 函数 。 

当 多 个 进程 能 够 访问 stdout 、stderr 或 者 stdin 时 ， 如 你 所 猜想 的 ， 输 入 的 分 布 和 输出 
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的 顺序 是 非 确定 的 。 对 于 和 输出， 数据 可 能 在 每 一 次 程序 运行 时 以 不 同 的 顺序 出 现 ， 或 者 更 糟糕 的 
情况 ， 一 个 进程 的 输出 被 另 一 个 进程 的 输出 打 断 。 对 于 输入 ， 即 使 每 一 次 输入 的 内 容 都 一 样 ， 在 
多 次 运行 时 ， 每 个 进程 读 到 的 数据 是 不 同 的 。 

为 了 能 够 部 分 地 解决 这 些 问 题 ， 当 并 行程 序 需要 输入 /输出 时 ， 我 们 会 做 一 些 假设 并 遵循 一 
些 规则 : 

。 在 分 布 式 内 存 程序 中 ， 只 有 进程 0 能 够 访问 stdin。 在 共享 内 存 程序 中 ， 只 有 主线 程 或 

者 线程 0 能 够 访问 stdin。 

e 在 分 布 式 内 存 和 共享 内 存 系 统 中 ， 所 有 进程 /线程 都 能 够 访问 stdout 和 stderr。 

。 但 是 ， 因 为 输出 到 stdout 的 非 确定 性 顺序 ， 大 多 数 情况 下 ， 只 有 一 个 进程 /线程 会 将 结 
果 输 出 到 stdout 。 但 输出 调试 程序 的 结果 是 个 例外 ， 在 这 种 情况 下 ， 人 允许 多 个 进程 / 线 
程 写 stdout。 
只 有 一 个 进程 /线程 会 尝试 访问 一 个 除 stdin 、stdout 或 者 stderr 外 的 文件 。 所 以 ， 
例如 ， 每 个 进程 /线程 能 够 打开 自己 私有 的 文件 进行 读 、 写 , 但 是 没有 两 个 进程 /线程 能 
打开 相同 的 文件 。 
调试 程序 输出 在 生成 输出 结果 时 ， 应 该 包括 进程 /线程 的 序号 或 者 进程 标识 符 。 


2.6 性 能 
编写 并 行程 序 的 主要 目的 当然 是 提高 性 能 ， 那 么 我 们 应 该 期 望 什么 ? 应 该 怎么 样 评价 程序 ? 


2. 6.1 加速 比 和 效率 

通常 ， 我 们 最 希望 达到 的 是 ， 任 务 在 核 之 间 平 均 分 配 ， 又 不 会 为 每 个 核 引 入 额外 的 工作 量 。 
如 果 我 们 能 成 功 达 到 目标 ， 当 在 p 核 系 统 上 运行 程序 ， 每 个 核 运 行 一 个 进程 或 者 线程 ， 并 行程 序 
的 运行 速度 就 是 串 行 程序 速度 的 p 倍 。 如 果 我 们 称 串 行 运行 时 间 为 ?si ， 并 行 运行 时 间 为 Ty4， 
那么 最 佳 的 预期 是 Tx5 = Ta4;/p。 此 时 ， 我 们 称 并 行程 序 有 线性 加 速 比 (linear speedup)。 

实际 上 ， 我 们 不 可 能 获得 线性 加 速 比 ， 因 为 多 个 进程 /线程 总 是 会 引入 一 些 代价 。 例 如 ， 共 
享 内 存 程序 通常 都 有 临界 区 ， 需 要 使 用 一 些 互 斥 机 制 ， 如 互 斥 量 。 调 用 互 斥 量 是 串 行程 序 没有 的 
代价 ， 使 用 互 斥 量 就 会 强制 并 行程 序 串 行 执行 临界 区 代码 。 而 分 布 式 内存 程 序 通常 需 要 跨 网 络 传 
输 数 据 ， 这 比 访问 局 部 内 存 中 的 数据 慢 。 相 反 ， 串 行程 序 没有 这 些 额 外 的 开销 。 因 此 ， 找 到 一 个 
具有 线性 加 速 比 的 并 行程 序 是 非常 不 容易 的 。 此 外 ， 随 着 进程 /线程 个 数 的 增多 ， 开 销 也 会 增 大 。 
更 多 的 线程 意味 着 更 多 的 线程 需要 访问 临界 区 ， 更 多 的 进程 意味 着 更 多 的 数据 需要 跨 网 络 传输 。 

所 以 ， 我 们 定义 并 行程 序 的 加 速 比 (speedup) 是 : 

sD 
Ta 

线性 加 速 比 为 5=p， 这 是 非常 难以 达到 的 。 此 外 ， 随 着 p 的 增加 ， 希 望 $ 越 来 越 接近 理想 的 线性 
加 速 比 p。 这 里 可 以 换 一 种 说 法 来 理解 5/p 随 着 p 的 增 大 越 来 越 小 。 表 2-4 给 出 了 一 个 随 着 p 的 
变化 ，S 和 S/Wp 变化 的 例子 。S/p 的 值 ?， 有 时 也 称 为 并 行程 序 的 效率 。 如 果 蔡 换 公式 中 的 5， 可 
以 看 到 效率 可 以 表示 为 : 





台 这 些 数据 来 自 第 3 章 ， 详 见 表 3-6 和 表 3-7。 
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表 2-4 一 个 并 行程 序 的 加 速 比 和 效率 






































显然 Txt 、S、 忆 依赖 于 p， 即 进程 或 者 线程 的 数 上 日。 还 需要 记 住 ，Tyww; 、S、E 和 Ts4; 还 依赖 
于 问题 的 规模 。 例 如 ， 如 果 将 表 2-4 中 的 问题 规模 加 倍 ， 可 以 得 到 表 2-5 中 的 加 速 比 和 效率 ， 这 
个 加 速 比 见 图 2-18， 效率 见 图 2-19。 

在 这 个 例子 中 ,我们 可 以 看 到 当 问 题 的 规模 变 大 时 ， 加 速 比 和 效率 增加 ; 当 问 题 的 规模 变 小 时 ， 
加 速 比 和 效率 降低 。 这 是 正常 的 。 许 多 并 行程 序 将 串 行程 序 的 任务 分 割 开 来 ， 在 进程 /线程 之 间 分 
配 ， 并 增加 了 必需 的 “并 行 开 销 ” ， 如 互 斥 或 通信 。 因 此 ， 如 果 用 T#w 表 示 并 行 开销 ， 那 么 

Ty = TAP + Ty 

此 外 ， 随 着 问题 规模 的 增加 ，Tjw 比 Ty; 增 长 得 慢 。 参 见习 题 2. 16。 直 党 会 告诉 你 ， 进 程 / 
线程 有 更 多 的 任务 去 做 ， 用 于 协调 进程 /线程 的 工作 所 需要 的 相对 时 间 变 少 了 。 

最 后 需要 考虑 的 问题 是 ， 在 计算 加 速 比 和 效率 时 ，7sa5 应 该 使 用 什么 值 。 有 些 作 者 认为 Ts 
应 该 是 在 最 强 的 核 上 运行 串 行 程序 的 最 快 时 间 。 而 实际 上 ， 许 多 作者 将 串 行 程序 在 并 行 系统 上 单 
个 核 的 运行 时 间作 为 ?sr。 所 以 ， 当 研究 并 行 shell 排序 程序 的 性 能 时 ， 第 一 组 作者 会 在 最 快 系统 吨 ] 
的 一 个 核 上 运行 串 行 基数 排序 或 者 快速 排序 ， 而 第 二 组 作者 会 在 并 行 系统 的 一 个 核 上 运行 串 行 的 
shell 排序 。 通 常情 况 下 ， 我 们 使 用 第 二 种 方法 。 





进程 
图 2-18 不 同 问题 规模 下 并 行程 序 的 加 速 比 
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进程 
2-19 不 同 问题 规模 下 并 行程 序 的 效率 


2. 6.2 阿 姆 达 尔 定律 

回 到 20 世纪 60 年 代 ， 吉 恩 ， 阿 姆 达尔 观察 [2] 到 一 个 著名 的 定律 : 阿 姆 达尔 定律 
(Amdahls law) 。 该 定律 描述 了 这 样 的 一 个 事实 : 大 致 上 ， 除 非 一 个 品行 程序 的 执行 几乎 全 部 都 并 
行 化 ， 否 则 ,不 论 有 和 多少 可 以 利用 的 核 ， 通 过 并 行 化 所 产生 的 加 速 比 都 会 是 受 限 的 。 假 设 , 一 个 
串 行 程序 中 ， 可 以 并 行 化 其 中 的 90% 。 进 一 步 假设 ， 并 行 化 是 “理想 ”的 ， 也 就 是 说 ， 如 果 使 用 
Pp 个 核 ， 则 程序 可 并 行 化 部 分 的 加 速 比 就 是 p。 若 该 程序 串 行 版 本 运行 时 间 Ts = 20 秒 ， 则 并 行 
化 后 ， 其 中 的 可 并 行 部 分 ( 即 90% 的 部 分 ) 的 运行 时 间 就 是 (90% x Tow) /p=18/p 秒 ， 不 可 
并 行 化 部 分 的 运行 时 间 为 10% x Tn; =2 秒 。 那 么 ， 程 序 并 行 版 本 的 全 部 运行 时 间 为 : 

Ta# = (90% x Tear) /p+10% x Ter =18/p +2 
加 速 比 为 : 
_ Ti _ 20 
(90% x Tsarn) /p+10% x74 18/p+2 
随 着 p 的 增加 ， 程 序 并 行 部 分 的 运行 时 间 (90% x Ts5)/p = 18/p 会 越 来 越 趋向 于 0。 但 是 ， 程 序 
并 行 版 本 的 总 运行 时 间 不 可 能 小 于 10% x Ts =2 秒 。 因 此 ， 加 速 比 
Ta 20 
S$<j0%x7 2 -10 

也 就 是 说 ，S<10。 这 告诉 我 们 这 样 一 个 事实 : 即使 拥有 1000 个 处 理 器 核 、 即 使 对 程序 中 90% 的 
可 并 行 部 分 完美 地 实现 了 并 行 化 ， 也 不 可 能 得 到 比 10 更 好 的 加 速 比 。 

考虑 更 一 般 的 情况 ， 串 行程 序 中 如 果 有 比例 为 的 部 分 不 可 并 行 化 ， 则 根据 阿 姆 达 尔 定 律 ， 
能 达到 的 最 好 加 速 比 趋 近 于 1/r。 在 上 面 的 例子 中 , r=1 -90 和 % =10%， 所 以 达 不 到 比 10 更 好 的 
加 速 比 。 因 此 ， 如 果 7r 代表 串 行 程序 的 “天 然 串 行 ” 部 分 ， 即 无 法 并 行 化 部 分 所 占 的 比例 ， 我 们 
不 可 能 获得 好 于 1/r 的 加 速 比 。 即 使 非常 小 ， 例 如 ， 只 有 17100， 即 使 我 们 使 用 一 个 拥有 上 千 个 
核 的 系统 ， 也 不 可 能 获得 好 于 100 的 加 速 比 。。 

这 听 起 来 非常 令 人 气 包 ， 感 觉 即 使 做 了 这 人 么 多 工作 ， 却 也 是 徒劳 。 但 是 ， 实 际 情 况 却 并 非 如 
此 ， 有 这 样 几 个 理由 可 以 让 我 们 不 用 过 多 地 考虑 阿 姆 达 尔 定律 所 带 来 的 影响 。 首 先 ， 阿 姆 达尔 定 


S 





律 中 并 没有 考虑 问题 的 规模 。 对 于 许多 问题 而 言 ， 当 它 的 规模 增加 时 ， 程 序 不 可 并 行 部 分 的 比例 
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却 在 减 小 (更 为 形式 化 及 具体 的 数学 描述 ， 参 见 Gustafson 定律 [25] ) 。 其 次 ， 科 学 家 和 工程 师 
所 用 的 程序 中 ， 有 成 百 上 千 个 在 分 布 式 内 存 系统 中 获得 了 极 大 的 加 速 比 。 最 后 ， 小 的 加 速 比 难道 
就 意味 着 很 糟糕 吗 ” 在 许多 情况 下， 得 到 5 ~ 10 的 加 速 比 就 已 经 足够 了 ， 特 别 是 当 你 不 用 费 很 大 
力气 去 开发 并 行程 序 的 时 候 。 


2. 6. 3 可 扩展 性 

“可 扩展 ”这 个 词 有 各 种 各 样 不 正式 的 描述 。 事 实 上 ， 我 们 已 经 在 前 文中 运用 了 很 多 次 这 个 
名 词 。 粗 略 地 讲 ， 如 果 一 个 技术 可 以 处 理 规模 不 断 增 加 的 问题 ， 那 么 它 就 是 可 扩展 的 。 但是， 对 
于 并 行程 序 的 性 能 而 言 ， 可 扩展 性 有 一 个 更 为 正式 的 定义 。 假 设 我 们 运行 一 个 拥有 固定 进程 或 线 
程 数 目的 并 行程 序 ， 并 且 它 的 输入 规模 也 是 固定 的 ， 那 么 我 们 可 以 得 到 一 个 效率 值 E。 现 在 ， 我 
们 增加 该 程序 所 用 的 进程 /线程 数 ， 如 果 在 输入 规模 也 以 相应 增长 率 增加 的 情况 下 ， 该 程序 的 效 
率 值 一 直 都 是 E， 那 么 我 们 就 称 该 程序 是 可 扩展 的 。 

举 个 例子 ， 假 设 程序 串 行 版 本 的 运行 时 间 是 785 = ， 其 中 ，745 的 单位 是 微 秒 ，m 可 看 做 是 
问题 的 规模 。 并 且 ， 假 设 程序 并 行 版 本 的 运行 时 间 是 Tn, = np + 1。 那 么 ， 效 率 值 就 为 ; 

上 = p Cry n+p 

如 果 程 序 是 可 扩展 的 ， 以 上 为 倍率 提高 进程 /线程 的 数目 ,希望 在 效率 值 E 不 变 的 情况 下 ， 找 到 
问题 规模 的 增加 比例 x。 增 加 进程 /线程 的 个 数 ， 使 之 变 为 名， 问题 的 规模 相应 增加 到 xn， 通 过 
解 方程 来 求 取 x 的 值 : 





__n aan 
n+p xn+kp 
如 果 x=k,， 那么 xn+ 即 =Jj+ 即 =k(n+p)， 则 : 
Xn kn n 
xn+hp k(n+p) n+tp 

换 句 话说 ， 只 有 当 问 题 规模 增加 的 倍率 ， 与 进程 /线程 数 增加 的 倍率 相同 时 ， 效 率 才 会 是 恒定 的 ， 
从 而 程序 是 可 扩展 的 。 

对 于 可 扩展 性 的 描述 ， 某 些 情况 下 会 有 一 些 特别 的 称谓 。 如 果 在 增加 进程 /线程 的 个 数 时 ， 
可 以 维持 固定 的 效率 ， 却 不 增加 问题 的 规模 ， 那 么 程序 称 为 强 可 扩展 的 (strongly scalable) 。 如 果 
在 增加 进程 /线程 个 数 的 同时 ， 只 有 以 相同 倍率 增加 问题 的 规模 才能 使 效率 值 保持 不 变 ， 那 么 程 
序 就 称 为 弱 可 扩展 的 (weakly scalable) 。 我 们 前 面 举 的 例子 就 是 弱 可 扩展 的 。 


2.6.4 计时 

在 2.6.3 节 中 ,也 许 你 会 问 这 样 的 一 个 问题 : Te5 与 7T#5 到 底 是 怎么 得 到 的 ? 其 实 ， 有 很 多 
种 不 同 的 方法 获得 这 两 个 值 。 对 于 并 行程 序 ， 详 细 的 细节 可 能 要 取决 于 API。 然 而 ， 通 过 一 些 普 
遍 的 观察 ， 或 许 能 让 这 件 事情 变 得 稍微 简单 一 些 

第 一 ， 至 少 有 两 个 不 同 的 理由 让 我 们 考虑 计时 (taking timings) 。 在 程序 的 开发 过 程 中 ， 我 们 
也 许 会 通过 计时 来 确定 程序 的 运行 情况 是 否 是 我 们 想 要 的 那样 。 比 如 说 ， 对 于 一 个 分 布 式 内 存 程 
序 ， 我 们 感 兴趣 的 可 能 是 ， 处 理 器 为 等 待 消息 花 了 多 少时 间 。 如 果 说 时 间 很 长 ， 那 么 大 致 可 以 肯 
定 的 是 ， 我 们 的 实现 或 者 设计 中 存在 某 些 问 题 。 另 一 方面 ,一 旦 我 们 完成 了 程序 的 开发 ， 我 们 通 
常 想 知道 这 个 程序 的 性 能 到 底 怎 么 样 。 可 能 令 你 惊讶 的 是 ， 其 实 对 于 这 两 种 计时 ， 我 们 采用 的 方 
法 常常 是 不 同 的 。 对 于 第 一 种 计时 ， 通 常 需要 非常 详细 的 信息 ， 可 能 需要 知道 程序 在 每 一 部 分 分 
别 运 行 了 多 少时 间 ， 从 而 知道 瓶 左 在 哪里 。 而 对 于 第 二 种 计时 ， 我 们 只 需要 一 个 简单 的 数值 。 我 
们 将 要 讨论 的 是 第 二 种 类 型 的 计时 。 对 于 第 一 种 类 型 ， 可 以 通过 查看 习题 2. 22 来 对 其 中 的 一 些 
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问题 做 大 致 了 解 。 

第 二 ， 我 们 通常 对 于 程序 从 开始 到 结束 之 间 的 时 间 并 不 感 兴趣 ， 我 们 一 般 只 对 程序 的 某 个 部 
分 感 兴趣 。 比 如 说 ， 编 写 一 个 冒 泡 排 序 的 程序 ， 我 们 可 能 只 关心 排序 到 底 花 了 多 少时 间 。 而 对 于 
数据 的 读 取 和 输出 所 花 的 时 间 ， 我们 没有 必要 知道 。 因 此 可 能 无 法 使 用 类 似 于 UNIX shell 命令 中 
的 time 命令 ， 因 为 该 命令 告诉 我 们 的 是 一 个 程序 从 开始 到 结束 的 运行 时 间 。 

第 三 ， 我 们 通常 也 对 所 谓 的 “CPU” 时 间 不 感 兴趣 。 这 是 由 标准 C 函数 cl1ock 所 提供 的 时 
间 ， 代 表 的 是 程序 执行 代码 的 总 时 间 。 这 个 时 间 包 括 执行 我 们 所 写 代码 的 时 间 、 执 行 pow 或 sin 
等 库 函 数 的 时 间 、 调 用 系统 函数 (如 printf 和 scanf) 所 花 的 时 间 等 。 它 不 包括 程序 空闲 状态 
的 时 间 ， 这 是 它 的 一 个 问题 。 例 如 ， 在 一 个 分 布 式 内 存 程 序 中 ， 一 个 进程 若 调用 接收 基数 ， 它 可 
能 需要 等 待 与 它 配 对 的 另 一 个 进程 执行 相应 的 发 送 操作 ， 此 时 操作 系统 会 使 接收 进程 在 等 待 的 过 
程 中 处 于 睡眠 状态 。 这 个 空闲 时 间 并 不 会 计 人 CPU 时 间 中 ， 因 为 此 时 没有 任何 函数 被 活动 的 进程 
调用 。 然而， 在 对 整体 运行 时 间 的 估计 中 ， 空 闲 时 间 是 应 该 记录 进来 的 ， 因 为 它 确实 是 程序 的 真 
实 开销 的 一 部 分 。 如 果 每 次 执行 程序 时 ， 进 程 都 必须 等 待 一 段 时 间 ， 那 么 忽略 等 待 时 间 将 会 得 到 
错误 的 程序 实际 运行 时 间 。 

因此 ， 当 你 在 阅读 一 篇 讲述 并 行程 序 运行 时 间 的 文章 时 ， 文 章 中 的 运行 时 间 通 常 指 的 是 “ 墙 
上 时 钟 ” 时 间 。 这 个 时 间 指 的 是 代码 从 开始 执行 到 执行 结束 的 总 耗费 时 间 ， 这 可 能 是 我 们 比较 关 
[31 心 的。 如 果 用 户 可 以 观察 到 程序 的 执行 ,那么 在 程序 开始 执行 的 那 一 刻 ， 他 按 下 了 秒表 的 开始 
键 ; 在 程序 停止 执行 的 那 一 刻 ， 他 按 下 了 结束 键 ， 这 就 是 整个 的 “ 墙 上 时 钟 ” 时 间 。 当 然 了 ， 他 
看 不 到 代码 的 执行 ， 但 是 他 可 以 修改 源 代码 ， 像 如 下 所 示 的 这 样 : 


double start, finish; 


start = Get.current.time():; 
/* Code that we want to time */ 


finish = Get.current_time(); 

printf("The elapsed time = %e seconds\n", finish—start); 
Get_current_time( ) 是 一 个 虚构 的 晴 数 ， 返 回 的 是 从 过 去 固定 的 某 一 个 时 刻 起 ， 时 间 流 逝 的 
秒 数 。 这 里 ， 它 只 是 个 抽象 的 表示 。 在 实际 的 程序 中 ， 该 函数 的 使 用 取决 于 具体 的 API。 例 如 ， 
MPI 中 的 MPI_Wtime 函数 ， 共 享 内 存 编程 OpenMP API 中 的 函数 是 omp_get_wtime。 这 两 个 函 
数 返回 的 都 是 墙 上 时 钟 时 间 ， 而 不 是 CPU 时 间 。 

关于 计时 函数 ， 可 能 会 有 所 谓 的 分 辩 率 〈resolution) 问题 。 分 辩 率 是 指 计时 器 的 时 间 测 量 单 
位 ， 是 计时 器 在 计时 的 过 程 中 最 短 的 非 零 时 间 跨 度 。 有 些 计 时 器 的 分 辩 率 为 毫秒 ， 当 一 条 指令 的 
运行 时 间 少 于 1 纳 秒 时 ， 可 能 导致 当 计 时 器 开始 显示 非 零 时 间 时 ， 程 序 已 经 执行 了 上 百 万 条 指 
令 。 许 多 API 提供 报告 计时 分 辩 率 的 函数 ， 另 一 些 API 则 要 求 一 个 计时 器 必须 有 一 个 特定 的 分 辩 
率 。 不 管 是 哪 种 情况 ， 作 为 编程 人 员 ， 都 需要 检查 这 些 值 。 

当 我 们 对 并 行程 序 计时 时 ， 我 们 需要 对 计时 方式 有 适当 的 了 解 。 在 下 面 的 例子 中 ， 我 们 希望 
计时 的 代码 段 可 能 会 被 多 个 进程 /线程 执行 ， 这 将 导致 最 后 输出 p 个 运行 时 间 。 

private double start, finish; 


start = Get_current time() 
Ar Code that we want to time */ 


finish = Get_current_time( ): 
printf("The elapsed time = %e seconds\n”, finish-start): 


然而 ,我 们 通常 感 兴趣 的 都 是 单个 时 间 ， 即 从 第 一 个 进程 /线程 开始 执行 ， 到 最 后 一 个 进程 /线程 
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结束 之 间 花 费 的 时 间 。 一 般 很 难 精确 地 观察 这 个 过 程 ， 因 为 可 能 一 个 进程 的 时 钟 和 为 一 个 进程 的 
时 钟 之 间 并 不 保持 一 致 。 所 以 ,我 们 通常 寻找 一 个 折 中 方案 ,代码 如 下 所 示 。 


shared double global_elapsed: 
private double my_start, my_finish, my.elapsed; 


/wk Synchronize ali processes/threads */ 
Barriert); 
my-start = Get_current.timet(}.; 


/*# Code that we want to time x/ 


my_finish = Get-current-time( ):; 
my_elapsed = my-finish 一 my.start; 


s* Find the max across all processes/threads */ 

global_elapsed = Global_max(my.elapsed); 

if (my-rank == 0) 

printf("The elapsed time = %e seconds\n",. global_elapsed): 

在 这 个 例子 中 ， 我 们 首先 执行 一 个 路 障 (barier) 函数 ,同步 所 有 的 进程 /线程 。 我 们 希望 所 有 的 
进程 /线程 同时 从 路 六 函数 调用 的 地 方 返回 ， 但 是 通常 只 能 保证 当 第 一 个 进程 /线程 从 该 函数 返回 
时 ， 所 有 的 进程 /线程 已 经 开始 调用 该 函数 。 然 后 ， 像 前 面 的 例子 一 样 执行 代码 ， 并 且 每 个 进程 / 
线程 记 下 它 所 耗费 的 时 间 。 接 着 ， 所 有 的 进程 /线程 调用 一 个 全 局 最 大 值 函 数 ， 该 函数 返回 各 个 
进程 /线程 所 耗费 时 间 的 最 大 值 ， 由 0 号 进程 /线程 将 该 值 打印 出 来 。 

我 们 还 需要 考虑 计时 的 易 变 性 (variability) 。 当 多 次 执行 同一 个 程序 时 ,每 次 运行 所 花费 的 
时 间 可 能 是 不 同 的 。 即 使 我 们 每 次 都 用 同样 的 输入 条 件 并 在 同样 的 系统 上 运行 程序 ， 这 个 情况 仍 
然 存在 的 。 看 起 来 最 好 的 处 理 办 法 是 采用 运行 的 平均 时 间或 者 运行 时 间 的 中 位 数 。 但 是 ， 不 可 能 
由 于 某 些 外 部 事件 ， 使 程序 的 运行 时 间 少 于 它 可 能 的 最 短 运行 时 间 。 所 以 ， 我 们 通常 报告 的 是 最 
得 运行 时 间 ， 而 不 是 平均 运行 时 间或 者 中 位 数 时 间 。 

如 果 在 每 个 核 中 运行 多 于 一 个 的 线程 ， 这 会 显著 增加 计时 的 易 变性 。 更 重要 的 是 ， 如 果 在 每 
个 核 中 运行 多 个 线程 ， 系 统 将 不 得 不 花费 多 余 的 时 间 去 进行 调度 ， 调 度 开销 也 会 计 人 总 的 运行 时 
间 。 因 此 ， 很 少 在 一 个 核 上 运行 多 个 线程 。 

最 后 ， 既 然 我 们 的 程序 不 是 为 高 性 能 WO 所 设计 的 ， 我 们 通常 不 在 报告 的 运行 时 间 中 包括 L/ 
0 时 间 。 
2.7 并 行程 序 设计 

如 果 已 经 有 了 一 个 串 行程 序 ， 如 何 使 之 并 行 化 呢 ?” 在 一 般 情况 下 ， 需 要 将 工作 进行 拆 分 ， 让 
其 分 布 在 各 个 进程 /线程 中 ， 使 每 个 进程 所 获得 的 工作 量 大 致 相同 ， 并 且 使 通信 量 最 小 。 所 以 很 
多 情况 下 ， 我 们 还 需要 安排 进程 /线程 之 间 的 同步 与 通信 。 不 幸 的 是 ， 我 们 无 法 通过 执行 固定 的 
步骤 达到 上 述 目标 。 否 则 ， 我 们 就 可 以 编写 一 个 程序 ， 用 它 去 转换 任意 一 个 串 行程 序 ， 使 之 并 行 
化 。 但 就 像 第 1 章 提 到 的 那样 ， 尽 管 我 们 做 了 大 量 的 工作 并 且 有 了 一 些 进展 ， 但 这 仍然 是 一 个 没 
有 通用 解决 办 法 的 问题 。 

然而 ，Ian Foster 在 他 的 在 线 电 子 书 《Designing and Building Parallel Programs》 [19] 中 ， 给 出 
了 一 个 并 行 化 步 又 : 

1) 划分 (partitioning)。 将 要 执行 的 指令 和 数据 按照 计算 部 分 拆 分 成 多 个 小 任务 。 这 一 步 的 
关键 在 于 识别 出 可 以 并 行 执行 的 任务 。 

2) 通信 (communication)。 确 定 上 一 步 所 识别 出 来 的 任务 之 间 需 要 执行 那些 通信 。 
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3) 凝聚 或 聚合 (agglomeration or aggregation ) 。 将 第 一 步 所 确定 的 任务 与 通信 结合 成 更 大 的 
任务 。 例 如 ， 如 果 任 务 A 必须 在 任务 B 之 前 执行 ,那么 将 它们 聚合 成 一 个 简单 的 复合 任务 可 能 更 
为 明智 。 

4) 分 配 (mappbing) 。 将 上 一 步 聚合 好 的 任务 分 配 到 进程 /线程 中 。 这 一 步 还 要 使 通信 量 最 小 
化 ， 使 各 个 进程 /线程 所 得 到 的 工作 量 大 致 均衡 。 

这 个 步骤 有 时 候 称 为 Foster 方法 。 


实例 

来 看 一 个 简单 的 实例 。 假 设 有 一 个 程序 ， 该 程序 生成 大 量 的 浮 点 数 并 将 其 存储 在 一 个 数组 
里 。 为 了 对 数据 分 布 有 一 个 更 为 直观 的 感受 ， 可 以 画 一 个 数据 的 直方 图 。 回 想 制 定 直方 图 的 过 
程 ， 首 先 简单 地 将 数据 的 范围 划分 成 几 个 同等 大 小 的 子 区 间 ， 或 称 为 桶 。 然 后 确定 每 个 桶 中 数据 
的 个 数 ， 并 绘制 一 个 直方 图 ， 以 展示 各 个 桶 中 数据 的 数目 。 作 为 一 个 简单 的 例子 ， 假 设 数据 为 : 

1.3, 2.9, 0.4, 0.3, 1.3, 4.4, 1.7, 0.4, 3.2, 0.3, 4.9, 2.4, 3.1, 4.4, 3.9, 0.4, 
4.2, 4.5, 4.9, 0.9。 

这 些 数据 都 分 布 在 0 ~5 之 间 。 如 果 我 们 使 用 五 个 桶 ， 那 么 直方 图 就 会 像 图 2-20 所 描绘 的 
那样 。 

串 行程 序 

编写 一 个 生成 直方 图 的 串 行 程序 非常 容易 。 我 们 只 需要 确定 有 几 个 桶 ， 以 及 每 个 桶 中 数据 的 
个 数 ， 然 后 打印 出 直方 图 即 可 。 由 于 不 考虑 IO 的 影响 ， 所 以 我 们 只 将 注意 力 放 在 前 面 两 个 步骤 
上 。 所 以 ， 输 入 部 分 为 : 

1) 数据 的 个 数 data_count。 

2) 一 个 大 小 为 data_count 的 浮 点 数 数组 data。 

3) 包含 最 小 值 的 桶 中 的 最 小 值 min_meas。 

4) 包含 最 大 值 的 桶 中 的 最 大 值 max_meas。 
[66] 5) 桶 的 个 数 bin_count。 








图 2-20 一 个 直方 图 


输出 部 分 为 一 个 数组 ， 数 组 中 的 每 个 元 素 对 应 于 桶 中 数据 的 个 数 。 为 了 更 精确 地 描述 整个 过 程 ， 
使 用 以 下 的 数据 结构 : 


- bin_maxes 一 个 大 小 为 bin_count 的 浮 点 数 数组 
- bin_counts 一 个 大 小 为 bin_count 的 整数 数组 


bin_max 数组 存储 的 是 每 个 桶 的 上 界 ， 而 bin_counts 数组 存储 的 是 落 在 每 个 桶 里 的 数据 的 个 
数 。 为 了 更 加 清楚 ， 我 们 定义 : 


bin-width = (max-meas — min-meas)/bin-count 
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则 bin_maxes 数组 的 初始 化 过 程 为 : 


for (b= 0; b < bincount; bt++) 
binmaxes[b] = minmeas + binwidths(b+l):; 


按照 习惯 ， 落 在 桶 4b 中 所 有 数据 的 取 值 (measurement) 都 应 该 在 下 面 这 个 范围 里 : 


bin_maxes[b—1] <= measurement < bin .maxes[b] 


当然 ， 这 个 公式 不 包括 5 =0 的 情况 。 桶 0 的 范围 为 : 


minmeas <= measurement < bin.maxes[0] 


这 就 意味 着 ,我 们 需要 将 桶 0 视 为 特殊 情况 处 理 ， 这 个 工作 其 实 并 不 复杂 。 
一 旦 初始 化 了 bin_maxes 数组 ， 并 将 bin_counts 的 每 个 元 素 值 都 设 为 0， 就 可 以 用 下 面 
的 伪 代 码 来 得 到 计数 值 : 


for (i = 0; i < data-count: i++)t 
bin = Find.binidata[i], bin.maxes, bincount, minmeas}: 
bin-counts[bin]++: 

} 


函数 Find_pbin 返 回 的 是 data[ij 属 于 的 那个 桶 号 。 这 是 个 简单 的 线性 查找 函数 : 线性 查找 
bin_maxes 数组 ， 直 到 发 现 满 足下 面条 件 的 桶 “: 


binmaxes[b-1i] <= datali] < bin-maxes[b] 


(这 里 ，bin_maxes[ -1I] 的 值 为 min_meas。) 如 果 桶 的 数目 不 是 很 多 ， 那 么 使 用 线性 查找 就 可 
以 了 。 但 是 一 旦 桶 的 数目 过 多 ， 运 用 二 分 查找 将 会 使 性 能 好 很 多 。 

并 行 化 串 行程 序 

如 果 data_count 比 bin_count 大 很 多 ， 即 使 在 Find_bin 函数 中 采用 二 分 查找 ， 整 个 代 
码 的 大 部 分 工作 量 就 会 集中 在 确定 bjn_counts 数组 中 各 个 元 素 大 小 的 循环 中 。 所 以 ， 并 行 化 的 
重点 应 该 放 在 这 个 循环 上 ， 我 们 将 运用 Foster 方法 来 实现 并 行 化 。 首先 要 注意 的 是 ，Foster 方法 中 
每 一 步骤 的 输出 ， 并 不 是 唯一 确定 的 。 所 以 在 任何 一 步 中 ， 如 果 你 想到 了 不 同 的 方法 ， 也 没什么 
好 惊讶 的 。 

第 一 步 , 识别 出 两 类 任务 : 找 出 data 数组 中 元 素 所 属于 的 那个 桶 ;该 桶 对 应 的 bin_ 
counts 数组 元 素 加 1。 

第 二 步 ， 计 算 桶 号 ， 将 桶 号 对 应 的 bin_counts 数组 元 素 加 1， 它 们 之 间 一 定 存 在 通信 。 如 
果 用 椭圆 来 表示 任务 ， 用 箭头 来 表示 任务 之 间 的 通信 ， 那 么 会 得 到 一 个 类 似 图 2-21 这 样 的 通信 
图 。 这 里 ， 标 记 为 datal ij 的 任务 决定 了 dataf[i] 所 属 的 桶 ， 标 记 为 bin_counts[b] + + 的 
任务 将 bin_counts[b] 的 值 加 1。 


Find_pbin 。。 





bin_counts 


增 量 加 1 





seCbin counts{b—-1]}++)Cbin counts [b]++7ee。 


图 2-21 Foster 方法 最 开始 的 两 个 阶段 


对 于 data 数组 中 的 每 个 固定 元 素 ， 任 务 “ 找 出 元 素 所 落 在 的 桶 的 桶 号 ”与 任务 “将 bin_ 
counts[b] 值 加 1” 可 以 整合 在 一 起 ， 因 为 后 者 只 有 在 前 者 完成 之 后 才能 进行 。 

然而 ， 当 进行 到 最 后 的 分 配 步骤 时 ， 我 们 发 现 ， 如 果 两 个 进程 或 线程 分 配 到 的 data 数组 元 
索 属于 同一 个 桶 b 时 ， 它 们 都 将 执行 hin_counts[b] + + 这 条 语句 。 如 果 bin_counts[b] 是 
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[68 





共享 的 (例如 ，bin_counts 数组 存储 在 共享 内 存 里 ) ， 这 将 导致 发 生 竞争 。 如 果 bin_counts 
数组 被 拆 分 到 各 个 进程 /线程 中 ， 更 新 该 数组 中 的 元 素 就 需要 进程 /线程 之 间 的 通信 。 一 种 解决 办 法 
是 ,存储 bin_counts 的 多 个 “本 地 ”副本 ,所 有 Find_bin 进行 后 ， 对 本 地 副本 中 的 值 加 1。 

如 果 桶 的 个 数 ， 即 bin_count 的 值 不 是 非常 大 ， 那 么 不 会 产生 什么 问题 。 所 以 我 们 暂且 就 
使 用 这 种 方法 ， 因 为 无 论 对 于 共享 内 存 系统 ， 还 是 分 布 式 内 存 系统 ， 这 种 方法 都 适用 。 

在 这 种 设置 下 ， 需 要 更 新 任务 图 ， 使 第 二 个 任务 集合 能 够 增加 10c_bin_cts[b] 的 值 。 我 
们 还 需要 增加 第 三 个 任务 集合 ， 将 各 个 10c_bin_cts[b] 加 起 来 ， 从 而 得 到 bin_counts[b] 的 
值 ， 如 图 2-22 所 示 。 从 图 2-22 中 可 以 看 到 ， 如 果 对 每 个 进程 /线程 都 建立 了 一 个 10c_bin_cts 
数组 ， 那 么 任务 可 以 分 为 两 组 : 

1) 将 data 数组 的 元 素 分 配 到 各 个 进程 /线程 ， 以 使 每 个 进程 /线程 得 到 的 元 素 个 数 大 致 
相同 。 

2) 每 个 进程 /线程 根据 分 配 到 的 元 素 ， 更 新 10c_bin_cts 数组 中 的 值 。 





图 2-22 任务 与 通信 的 另 一 种 定义 方式 


最 后 ， 需 要 将 各 个 1oc_bin_cts[b] 都 加 起 来 ， 从 而 得 到 bin_counts[b] 的 值 。 如 果 进 程 
/线程 数 和 桶 数 都 很 小 ,那么 所 有 的 加 法 
操作 都 可 以 交 给 单个 进程 /线程 去 完成 。 
如 果 桶 数 远 远大 于 进程 /线程 数 ， 那 么 可 
以 将 桶 拆 分 到 各 个 进程 /线程 中 ， 就 像 我 
们 拆 分 data 数组 那样 。 如 果 进 程 /线程 
数 较 大 ， 可 以 采用 第 1 章 介 绍 的 树 形 结构 
的 全 局 求 和 法 的 类 似 方法 。 唯 一 与 之 前 介 
绍 的 全 局 求 和 法 不 同 的 是 ， 发 送 进 程 / 线 
程 发 送 的 是 一 个 数组 ， 接 收 进 程 /线程 所 
接收 和 加 起 来 的 也 是 个 数组 。 图 2-23 显 
示 了 一 个 具有 8 个 进程 /线程 的 例子 。 最 图 2-23 本 地 数组 相 加 
上 面 一 层 中 的 每 个 圆圈 代表 的 是 一 个 进程 /线程 。 在 第 一 层 与 第 二 层 之 间 ， 偶 数 编号 的 进程 /线程 
可 以 得 到 奇数 编号 的 进程 /线程 所 提供 的 10c_bin_cts 数组 ， 并 将 得 到 的 值 加 到 自己 的 值 上 。 在 
第 二 层 与 第 三 层 之 间 ， 编 号 能 够 被 4 整除 的 进程 与 编号 不 能 被 4 整除 的 进程 重复 上 面 类 似 的 操 
作 。 整 个 过 程 不 断 重 复 ， 直 到 0 号 进程 /线程 计算 出 bin_counts 数组 的 值 。 


2.8 编写 和 运行 并 行程 序 
过 去 ， 几 乎 所 有 的 并 行程 序 的 开发 都 是 用 vi 或 Emacs 之 类 的 文本 编辑 器 完成 的 。 程 序 通 过 
命令 行 或 者 编辑 器 来 编译 和 运行 程序 。 同 样 ， 调 试 器 也 一 般 通 过 命令 行 来 操作 。 现 在 ,我 们 可 以 
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直接 使 用 集成 开发 环境 (Integrated Development Environment ，IDE) 来 开发 程序 ， 比 如 微软 的 开发 
环境 、Eclipse， 以 及 其 他 开发 环境 。 参 见 [16，38] 。 

在 规模 较 小 的 共享 内 存 系统 中 ， 运 行 单 个 的 操作 系统 副本 ， 在 可 用 核 之 间 进 行 线程 调度 。 在 
这 些 系 统 上 ， 共 享 内 存 程序 通常 由 IDE 或 者 命令 行 启动 。 一 旦 启动 后 ， 程 序 一 般 通 过 控制 台 
(console) 和 键盘 来 进行 标准 输入 (stdin)， 并 将 输出 的 数据 输出 到 标准 输出 (stdout) 和 标 
准 错误 输出 (stderr) 中 。 在 更 大 的 系统 中 ， 可 能 会 有 一 个 批 处 理 调度 器 ， 通 过 调度 器 ， 用 户 
可 以 请 求 一 定数 量 的 核 ， 并 指定 可 执行 路 径 和 输入 /输出 的 位 置 (通常 是 二 级 存储 器 上 的 文件 ) 。 

在 典型 的 分 布 式 内 存 系统 和 混合 系统 中 ， 由 一 台 宿 主 计算 机 负责 用 户 间 的 节点 分 配 工作 。 有 
些 系 统 是 纯粹 的 批 处 理 系 统 ， 有 点 像 共 享 内 存 批 处 理 系 统 。 而 另 一 些 系 统 会 允许 用 户 退 出 节点 ， 
交互 运行 任务 。 由 于 任务 的 启动 通常 会 涉及 与 远程 系统 的 通信 ， 实 际 的 启动 一 般 在 一 个 脚本 里 完 
成 。 例 如 ，MPI 程序 通常 由 叫做 mpirun 或 mpiexec 的 脚本 来 启动 。 

RTFD 通常 翻译 成 “阅读 好 的 文档 ” (read the fine documentation ) 。 


2.9 假设 

如 前 所 述 ， 我 们 将 重点 关注 同 构 MIMD 系统 ， 即 系统 中 所 有 节点 的 结构 相同 ， 程 序 结构 是 
SPMD 的 。 因 此 , 我 们 编写 的 是 一 个 拥有 不 同 分 支 的 单个 程序 ， 并 假定 各 个 核 的 结构 相同 ,但 蜡 
步 操作 。 我 们 还 假定 ， 在 单个 核 上 最 多 只 运行 一 个 进程 或 线程 ， 并 经 常 使 用 静态 进程 或 线程 。 换 
旬 话 说 ， 我 们 会 在 差不多 同一 时 间 开 启 所 有 的 进程 或 线程 ， 并 且 在 它们 完成 执行 时 ， 在 差不多 同 
一 时 间 终 止 它们 。 

某 些 用 于 并 行 系统 的 应 用 程序 编程 接口 定义 了 新 的 编程 语言 。 但 大 多 数 API 是 对 现成 编程 语 
言 的 扩展 ， 可 以 通过 库 函 数 (如 消息 传递 函数 ) 实现 扩展 ; 也 可 以 扩展 用 于 串 行 版 本 的 编译 器 。 
本 节 关 注 后 一 种 方法 。 我 们 将 使 用 的 是 C 语言 的 并 行 扩 展 。 

当 我 们 想 显 式 地 编译 和 运行 程序 时 ， 使 用 UNIX shell 的 命令 行 形式 ， 或 者 gcc 编译 器 ， 或 者 
gcc 的 某 种 扩展 〈 如 mpicc)。 而 且 ， 也 用 命令 行 来 启动 程序 。 例 如 ， 如 果 我 们 想 显示 Kemighan 
和 Ritchie 编写 的 “hello，world” 程 序 [29] 的 编译 与 执行 ， 会 出 现 的 信息 如 下 : 


$ gcc -g -Wall ~o hello hello.c 
$ ./hello 
hello, world 


其 中 ，$ 是 shell 的 标志 符 。 我 们 通常 使 用 如 下 的 编译 器 选项 : 

。 -9g 人 允许 使 用 调试 器 。 

e -Wall 显示 警告 。 

。 -0<outfile> 编译 出 的 可 执行 文件 的 文件 名 为 outfile。 

。 在 对 程序 计时 时 ， 我 们 用 -02 选项 来 告诉 编译 器 对 代码 进行 优化 。 

在 大 部 分 系统 中 ， 用 户 的 目录 或 文件 夹 在 默认 情况 下 是 不 出 现在 用 户 的 执行 路 径 上 的 。 所 
以 ,我 们 会 在 可 执行 文件 的 文件 名 前 加 上 . /来 给 出 可 执行 文件 的 路 径 。 


2. 10 小结 
本 章 讨论 了 许多 内 容 ， 一 个 完整 的 总 结 会 占用 许多 页 。 下 面 我 们 尽量 精简 地 做 个 总 结 。 
2. 10. 1 串 行 系统 


本 章 从 讨论 传统 的 串 行 硬件 和 串 行 软件 开始 。 计 算 机 硬件 的 标准 模型 是 冯 “' 诺 依 曼 结构 ， 由 
执行 计算 的 中 央 处 理 单元 (CPU) ， 以 及 存储 数据 及 指令 的 主 存 组 成 。CPU 与 主 存 的 分 离 通常 称 
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为 冯 … 诺 依 轩 瓶颈 ， 因 为 这 会 限制 指令 执行 的 速率 。 

计算 机 上 最 重要 的 软件 可 能 就 是 操作 系统 ， 它 管理 计算 机 的 资源 。 大 部 分 现代 操作 系统 都 是 
多 任务 的 。 即 使 硬件 上 没有 多 个 处 理 器 或 者 核 ， 通 过 对 执行 程序 进行 快速 切换 ， 操 作 系 统 可 以 制 
造 出 多 个 程序 同时 运行 的 假象 。 一 个 正在 执行 的 程序 称 为 一 个 进程 。 由 于 一 个 进程 或 多 或 少 是 独 
立 运行 的 ， 它 会 包含 许多 相关 的 数据 和 信息 。 而 线程 由 进程 启动 ， 它 不 需要 独立 包含 相关 数据 及 
信息 ， 所 以 线程 的 终止 与 开启 比 进程 要 快 得 多 。 

在 计算 机 科学 中 ,缓存 (cache) 是 存储 单元 的 一 种 。 与 其 他 存储 单元 相 比 ， 缓 存 的 访问 更 
快 。CPU 缓存 是 在 CPU 寄存 器 与 主 存 之 间 的 中 间 存 储 器 ， 主 要 目的 是 降低 主 存 访 问 的 延迟 。 缓 在 
利用 了 一 些 局 部 性 原理 ， 即 与 近期 访问 的 数据 相 邻 的 数据 可 能 会 在 不 久 的 将 来 被 访问 。 当 一 条 指 
令 或 数据 被 访问 时 ， 如 果 它 已 经 在 缓存 里 了 ， 我 们 就 称 之 为 缓存 命中 。 如 果 不 在 缓存 里 ， 则 称 为 
和 缺失。 缓存 由 计算 机 硬件 直接 管理 ， 所 以 程序 员 只 能 间接 控制 缓存 。 

主 存 也 可 以 被 看 做 是 二 级 存储 器 的 缓存 。 由 硬件 和 操作 系统 通过 虚拟 内 存 来 管理 。 一 般 情况 
下 ， 程序 中 所 有 的 指令 和 数据 不 会 都 存储 在 主 存 里 ， 在 主 存 中 只 保留 活动 的 部 分 ， 而 其 他 部 分 则 
存储 在 二 级 存储 的 交换 空间 里 。 与 CPU 缓存 一 样 ， 虚 拟 内 存 对 连续 的 数据 或 指令 组 成 的 块 (我 
们 称 为 页 ) 进行 操作 。 虚 拟 内 存 不 采用 内 存 的 物理 地 址 进行 编 址 ， 而 采用 虚拟 地 址 ， 与 实际 的 物 
理 地 址 相 独 立 。 物 理 地 址 与 虚拟 地 址 的 对 应 关系 存储 在 主 存 的 页 表 里 。 虚 拟 地 址 和 页 表 的 结合 让 
系统 可 以 在 内 存 的 任何 地 方 存储 程序 的 数据 与 指令 。 因 此 ， 如 果 两 个 不 同 的 程序 使 用 了 相同 的 虚 
拟 地 址 也 没有 关系 。 由 于 使 用 了 页 表 ， 每 次 程序 要 访问 主 存 时 ， 需 要 两 次 访问 主 存 : 一 次 是 获取 
页 表 项 ， 从 而 知道 要 虚拟 地 址 所 对 应 的 物理 内 存 的 位 置 ， 男 一 次 是 对 需要 访问 的 数据 进行 实际 的 
访问 。 为 了 避免 这 个 问题 〈 主 存 访问 的 次 数 增加 ) ，CPU 有 一 个 特殊 的 页 表 缓 存 ， 称 之 为 转译 后 
备 缓冲 器 (TLB)， 存 储 最 近 使 用 到 的 页 表 项 。 

指令 级 并 行 (ILP) 使 单 进程 可 以 同时 执行 多 个 指令 。 有 两 种 主要 的 ILP: 流水 线 和 多 发 射 。 
对 于 流水 线 ， 处 理 器 的 功能 单元 被 依次 排列 ， 其 中 一 个 的 输出 作为 另 一 个 的 输入 。 当 一 个 数据 在 
第 二 个 功能 单元 内 处 理 时 ， 另 一 个 数据 就 能 在 第 一 个 处 理 单元 内 处 理 。 对 于 多 发 射 ， 同 类 型 的 功 
能 单元 会 被 复制 ， 处 理 器 可 以 同时 在 单个 程序 中 执行 多 条 不 同 的 指令 。 

与 同时 执行 指令 不 同 ， 硬 件 多 线程 同时 运行 不 同 的 线程 。 有 多 种 不 同 的 方法 可 以 实现 硬件 多 
线程 。 然 而 ， 所 有 这 些 方法 都 是 通过 快速 在 线程 之 间 进 行 切换 来 试图 使 处 理 器 尽 可 能 地 忙碌 。 当 
一 个 线程 发 生 阻 塞 并 在 执行 指令 之 前 必须 等 待 时 (如 为 了 等 待 访 存 完成 ) ， 硬 件 多 线程 显得 尤其 
重要 。 在 同步 多 线程 机 制 里 ， 不 同 的 线程 可 以 在 一 个 多 发 射 处 理 器 内 同时 使 用 多 个 功能 单元 。 由 
于 线程 是 由 多 个 指令 组 成 的 ， 有 时 我 们 会 说 线程 级 并 行 (TLP) 比 ILP 更 粗 粒度 。 


2. 10.2 ”并行 硬件 

指令 级 并 行 和 线程 级 并 行 在 底层 提供 并 行 性 ， 典 型 情况 下 ， 它 们 由 处 理 器 和 操作 系统 来 控 
制 ， 而 不 是 由 程序 员 直 接 控 制 。 而 本 书 的 目标 是 : 如 果 并 行 性 对 于 程序 员 是 可 见 的 ， 那 么 硬件 就 
是 并 行 的 ， 程 序 员 可 以 通过 修改 代码 来 开发 并 行 性 。 

通常 用 Flynn 分 类 法 对 并 行 硬件 进行 分 类 ， 通 过 系统 可 以 处 理 的 指令 流 数 目 和 数据 流 数 目 来 
区 别 各 个 分 类 。 冯 “' 诺 依 曼 系统 拥有 单个 的 指令 流 和 单个 的 数据 流 ， 所 以 它 是 单 指令 单数 据 流 
(SISD) 系统 。 

单 指令 多 数据 流 (SIMD) 系统 在 任 一 时 间 执 行 一 条 指令 ,但 是 该 指令 可 以 对 多 个 数据 项 进 
行 操作 。 这 些 系 统 经 常 按 锁 步 执行 指令 : 第 一 条 指令 同时 应 用 在 所 有 的 数据 项 上 ， 然 后 是 第 二 条 
指令 ， 以 此 类 推 。 这 种 并 行 系统 通常 使 用 数据 并 行程 序 ， 在 数据 并 行程 序 里 ， 将 数据 划分 给 各 个 
处 理 器 ， 各 个 数据 由 相同 的 指令 序列 来 处 理 。 向 量 处 理 器 与 图 形 处 理 器 单元 (GPU) 一 般 划 分 在 
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SIMD 系统 里 ， 尽 管 最 近 的 GPU 也 有 多 指令 多 数据 流 系统 的 特点 。 

在 SIMD 系统 里 ， 对 分 支 指令 的 处 理 主要 是 : 让 那些 没有 对 数据 项 使 用 分 支 指令 的 处 理 器 处 
于 空闲 状态 。 这 种 行为 使 得 SIMD 系统 不 适合 任务 并 行 。 在 任务 并 行 里 ， 每 个 处 理 器 执行 一 个 不 
同 的 任务 。SIMD 系统 甚至 不 适合 拥有 多 个 条 件 分 支 的 数据 并 行 的 操作 。 

对 于 多 指令 多 数据 流 (MIMD) 系统 ,正如 其 名 ， 系 统 同时 执行 多 个 指令 流 ， 每 个 指令 流 有 
自己 的 数据 流 。 实 际 上 ，MIMD 系统 是 多 个 自主 处 理 器 的 集合 ， 每 个 处 理 器 可 以 按照 自己 的 方式 
运行 。 不 同 MIMD 系统 的 主要 区 别 在 于 : 它们 是 共享 内 存 系统 ， 还 是 分 布 式 内 存 系统 。 在 共享 内 
存 系统 里 ， 每 个 处 理 器 或 者 核 可 以 直接 对 所 有 的 内 存单 元 进行 访问 ; 而 在 分 布 式 内 存 系统 里 ， 每 
个 处 理 器 有 它 自己 的 私有 内 存 。 大 多 数 大 型 MIMD 系统 其 实 是 混合 系统 ， 是 由 多 个 相对 小 的 共享 
内 存 系统 通过 网 络 连 接 来 实现 的 。 在 这 些 系 统 里 ， 单 个 的 共享 内 存 系 统 有 时 称 为 节点 。 有 些 
MIMD 系统 是 异 构 系 统 ， 处 理 器 拥有 不 同 的 性 能 。 例 如 ， 拥 有 一 个 传统 CPU 和 一 个 GPU 的 系统 就 
是 一 个 异 构 系 统 。 而 如 果 一 个 系统 中 的 所 有 处 理 器 都 是 相同 结构 的 ， 那 么 就 是 同 构 的 。 

在 共享 内 存 系统 中 ， 处 理 咒 与 内 存 之 间 会 有 不 同 的 连接 方式 ， 同 样 ， 在 分 布 式 内 存 或 者 混合 
系统 中 ， 处 理 器 之 间 也 有 多 种 不 同 的 连接 方式 。 共 享 内 存 系统 中 ， 最 普遍 使 用 的 连接 方式 是 总 线 
和 交叉 开关 符 阵 。 而 分 布 式 内 存 系统 有 时 会 采取 直接 连接 的 方式 ， 如 二 维 环 面 网 格 和 超 立 方 体 ， 
有 时 也 采用 交叉 开关 矩阵 和 多 级 网 络 这 类 间接 连接 方式 。 网络 的 性 能 通常 由 等 分 宽度 或 等 分 带宽 
来 评估 ， 用 来 衡量 网 络 支持 多 少 同时 通信 。 对 于 节点 间 的 单个 通信 ， 我 们 一 般 讨 论 通信 的 延迟 和 
带宽 。 

共享 内 存 系统 的 一 个 潜在 问题 是 缓存 一 致 性 。 相 同 变量 可 以 存储 在 两 个 不 同 核 的 缓存 中 。 如 
果 一 个 核 更 新 了 变量 值 ， 另 一 个 核 却 不 知道 该 变量 已 经 被 改变 了 。 有 两 种 主要 方法 可 以 保证 缓存 
的 一 致 性 : 监听 和 使 用 目录 。 监 听 需 要 依靠 互 连 结构 从 一 个 缓存 控制 器 向 其 他 缓存 控制 器 广播 信 
息 的 能 力 。 目 录 是 特殊 的 分 布 式 数据 结构 ， 它 存储 每 一 条 缓存 行 的 信息 。 缓 存 一 致 性 引出 了 共享 
内 存 编程 的 另 一 个 问题 : 伪 共 享 。 在 一 个 核 更 新 了 一 个 缓存 行 上 某 变量 的 值 后 ， 如 果 另 一 个 核 想 
要 访问 同一 缓存 行 上 的 另 一 个 变量 ， 那 么 它 不 得 不 访问 主 存 ， 因 为 缓存 一 致 性 的 单位 是 行 。 换 名 
话说 ， 第 二 个 核 只 知道 它 要 访问 的 缓存 行 被 更 新 了 ， 它 并 不 知道 它 要 访问 的 变量 其 实 并 没有 
改变 。 


2. 10. 3 ”并行 软件 

本 节 ， 我们 关注 同 构 MIMD 系统 的 软件 开发 。 此 类 系统 的 大 部 分 程序 是 单个 程序 ， 并 通过 分 
支 语句 实现 并 行 。 这 种 程序 通常 称 为 单程 序 多 数据 流 (SPMD) 程序 。 在 共享 内 存 程序 中 ， 将 正 
在 执行 的 任务 实例 称 为 线程 ; 在 分 布 式 内 存 程序 里 ， 我 们 称 它们 为 进程 。 

除非 问题 是 易 并 行 的 ， 并 行程 序 的 开发 至 少 需要 考虑 进程 或 线程 间 的 负载 平衡 、 通 信 ， 以 及 
同步 。 

在 共享 内 存 程序 中 ， 单 个 线程 可 以 拥有 私有 和 共享 内 存 ， 通 信 通 常 通过 共享 变量 来 完成 。 当 
处 理 器 异步 执行 时 ， 会 存在 不 确定 性 问题 。 就 是 说 ， 对 于 一 个 给 定 的 输入 ， 程 序 的 两 次 运行 会 有 
不 同 的 结果 。 这 会 成 为 一 个 严重 的 问题 ， 特 别 是 在 共享 内 存 程序 里 。 如 果 不 确定 性 是 由 两 个 线程 
试图 访问 相同 资源 而 引起 的 ， 并 且 它 会 导致 一 个 错误 ,那么 该 程序 就 称 为 含有 一 个 竞争 条 件 。 竞 
争 条 件 最 可 能 存在 的 地 方 是 临界 区 。 临 界 区 是 一 个 代码 块 ， 在 任意 时 间 只 能 有 一 个 线程 可 以 执行 
该 代码 块 。 在 大 部 分 的 共享 内 存 API 里 ， 临 界 区 的 互 斥 可 由 称 为 互 斥 锁 或 互 斥 量 (mutex) 的 对 
象 来 实现 。 临 界 区 应 该 越 小 越 好 ， 因 为 互 斥 量 保证 了 在 任意 时 间 只 人 允许 一 个 线程 在 临界 区 内 执 
行 ， 这 会 使 代码 串 行 化 。 

对 于 共享 内 存 程序 的 第 二 个 潜在 问题 是 线程 安全 性 。 当 一 个 代码 块 被 多 个 线程 运行 并 且 运 行 
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正确 时 ， 称 之 为 线程 安全 的 。 为 串 行程 序 所 写 的 函数 会 豪 不 知情 地 使 用 共享 数据 ， 例 如 ， 静 态 变 
量 。 在 多 线程 程序 里 ， 这 样 使 用 共享 数据 会 导致 错误 。 这 种 函数 不 是 线程 安全 的 。 

分 布 式 内 存 系统 编程 使 用 最 多 的 API 是 消息 传递 。 在 消息 传递 API 中 ， 至 少 有 两 个 不 同 的 消 
数 : 一 个 发 送 函数 和 一 个 接收 函数 。 当 进程 需要 通信 时 ， 一 个 进程 调用 发 送 函 数 ， 另 一 个 调用 接 
收 函 数 。 这 些 函 数 可 以 有 各 种 可 能 的 行为 。 例 如 ， 发 送 函 数 阻 塞 或 等 待 ， 直 到 对 应 的 接收 函数 开 
始 运行 ， 或 者 ， 消 息 传递 软件 将 消息 数据 复制 到 自己 的 存储 空间 内 ， 发 送 进程 可 以 在 接收 开始 之 
前 就 返回 。 最 一 般 的 接收 行为 是 ， 直 到 消息 接收 前 都 保持 阻塞 状态 。 使 用 最 多 的 消息 传递 系统 叫 
做 消息 传递 接口 (MPI) 。 它 在 简单 的 发 送 和 接收 的 基础 上 提供 了 许多 功能 。 

分 布 式 内 存 系统 还 可 以 用 单 向 通信 来 进行 编程 。 它 使 得 进程 可 以 访问 属于 其 他 进程 的 数据 。 
而 划分 全 局 地 址 空间 语言 在 分 布 式 内 存 系统 中 提供 了 一 些 共享 内 存 功 能 。 


2. 10. 4 输入 和 输出 

在 一 般 的 并 行 系统 里 ， 多 个 核 可 以 访问 多 个 二 级 存储 设备 。 但 我 们 不 会 编写 使 用 该 功能 的 程 
序 。 相 反 ， 我 们 会 编写 的 程序 是 ， 其 中 的 一 个 进程 或 线程 可 以 访问 标准 输入 (stdin) ， 所 有 进 
程 可 以 访问 标准 输出 (stdout) 和 标准 错误 输出 〈stderr) 。 然 而 ， 由 于 不 确定 性 ， 除 了 调试 
输出 外 ， 通 常 只 让 一 个 进程 或 线程 访问 标准 输出 〈stdout ) 。 


2. 10.5 性 能 

如 果 用 p 个 进程 或 线程 来 运行 一 个 并 行程 序 ， 并 且 每 个 核 中 至 多 只 有 一 个 进程 /线程 ， 那 么 
理想 状态 下 ， 并 行程 序 运行 速度 应 该 是 捉 行 程序 的 p 倍 。 这 称 为 线性 加 速 比 ， 但 实际 上 ， 线 性 加 
速 比 很 难 实现 。 如 果 我 们 用 Tuy 来 表示 串 行程 序 的 运行 时 间 ， 用 Pit 来 表示 并 行程 序 的 运行 时 
间 ， 那 么 并 行程 序 的 加 速 比 $ 和 效率 E 可 由 以 下 公式 分 别 得 到 : 


所 以 ， 对 于 线性 加 速 比 ，S =p,，E =1。 实 际 上 ， 我 们 得 到 的 结果 几乎 都 是 $<p，E < 1。 如 果 我 
们 固定 问题 的 规模 ， 那 么 当 p 增加 时 ，E 通常 会 减 小 。 如 果 我 们 固定 进程 /线程 的 数量 ， 当 我 们 增 
大 问题 的 规模 时 ，S 和 都 会 增加 。 

阿 姆 达 尔 定律 提供 了 一 个 并 行程 序 可 以 得 到 的 加 速 比 的 上 界 : 如 果 原 有 的 串 行程 序 中 无 法 并 
行 化 部 分 在 整个 程序 中 所 占 的 比例 是 >， 那么 无 论 使 用 多 少 进程 /线程 ， 得 到 的 加 速 比 都 无 法 超过 
1/r。 但 实际 上 ， 很 多 并 行程 序 都 能 得 到 很 好 的 加 速 比 。 产 生 这 一 矛盾 的 原因 可 能 是 ， 当 问题 规 
模 增 大 时 ， 无 法 并 行 的 部 分 相对 于 可 并 行 部 分 所 占 的 比例 会 降低 。 

可 扩展 性 这 一 术语 有 很 多 种 解释 。 一 般 而 言 ， 如 果 一 个 技术 可 以 处 理 任 意 增长 的 问题 规模 ， 
那么 我 们 就 称 其 为 可 扩展 的 。 正 式 的 表述 是 : 一 个 并 行程 序 ， 如 果 问 题 的 规模 与 进程 /线程 数 都 
以 一 定 的 倍率 增加 ， 而 效率 保持 一 个 常数 值 ， 那 么 该 并 行程 序 就 是 可 扩展 的 。 如 果 问 题 规模 保持 
不 变 ， 那 么 该 程序 就 称 为 强 可 扩展 的 。 如 果 问 题 规模 的 大 小 随 着 进程 /线程 数 的 增长 等 倍率 增长 ， 
那么 该 程序 就 称 为 弱 可 扩展 的 。 

为 了 确定 Tw; 和 Ti ， 我 们 在 源 代码 里 通常 要 调用 计时 函数 。 我 们 希望 计时 函数 提供 的 是 墙 上 
时 钟 时 间 ， 而 不 是 CPU 时 间 。 这 主要 是 因为 ， 当 CPU 空闲 时 ， 程 序 仍然 可 能 是 “活动 ”的 (如 等 
待 一 条 消息 ) 。 为 了 得 到 并 行 计 时 时 间 ， 在 计时 器 开始 之 前 ,通常 需要 同步 进程 /线程 ， 并 在 计时 
后 ， 找 出 进程 /线程 中 的 最 长 运行 时 间 。 因 为 系统 的 易 变 性 ， 一 般 要 多 次 运行 程序 ， 并 且 记 录 下 
最 短 的 运行 时 间 。 为 了 降低 易 变性 ， 提 高 总 体 的 运行 时 间 ， 通 常 在 每 个 核 上 最 多 运行 一 个 线程 。 
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2. 10.6 并 行程 序 设计 


Foster 方法 给 出 了 设计 并 行程 序 的 一 系列 步骤 。 这 些 步骤 为 : 划分 问题 并 识别 任务 ; 在 任务 


中 识别 要 执行 的 通信 ;， 凝聚 或 聚合 任务 使 之 变 成 较 大 的 组 任务 ; 将 聚合 任务 分 配给 进程 /线程 。 
2. 10.7 假设 


我 们 所 关注 的 主要 是 在 共享 内 存 与 分 布 式 内 存 MIMD 系统 上 的 并 行程 序 开发 。 我 们 编写 使 用 


静态 进程 /线程 的 SPMD 程序 。 这 些 进 程 /线程 在 程序 开始 执行 时 生成 ， 直 到 程序 结束 后 才 关 闭 。 
我 们 还 假设 系统 中 的 每 个 核 上 最 多 运行 一 个 进程 或 线程 。 


2. 11 习题 


2.1 


2.2 


2.3 


2.4 


2.5 


2.6 


2.7 


2.8 
2.9 


当 讨 论 浮 点 数 加 法 时 ， 我 们 简单 地 假设 每 个 功能 单元 都 花费 相同 的 时 间 。 如 果 每 个 取 命 令 与 存 命令 都 

耗费 2 纳 秒 ， 其 余 的 每 个 操作 耗费 1 纳 秒 。 

a 在 上 述 假 设 下 ， 每 个 浮 点 数 加 法 要 耗费 多 少时 间 ? 

b. 非 流 水 线 1000 对 浮 点 数 的 加 法 要 耗费 多 少时 间 ? 

c. 流水 线 1000 对 浮 点 数 加 法 要 耗费 多 少时 间 ? 

d. 如 果 操 作 数 /结果 存储 在 不 同 级 的 内 存 层 级 上 ， 那 么 取 命 令 与 存 命令 所 要 耗费 的 时 间 可 能 会 差别 非 
常 大 。 假 设 从 一 级 缓存 上 取 数 据 / 指 令 要 耗费 2 纳 秒 ， 从 二 级 缓存 上 取 数 据 / 指 令 要 耗费 5 纳 秒 ， 从 
主 存 取 数 据 /指令 要 耗费 50 纳 秒 。 当 执行 某 条 指令 ， 取 其 中 一 个 操作 数 时 ， 发 生 了 一 次 一 级 缓存 失 
效 ， 那 么 流水 线 会 发 生 什 么 情况 ? 如 果 又 发 生 二 级 缓存 失效 ， 又 会 怎样 ? 

请 解释 在 CPU 硬件 里 实现 的 一 个 队列 ， 怎 么 使 用 可 以 提高 写 直 达 高 速 缓存 (write - through cache) 的 

性 能 。 

回顾 之 前 一 个 从 缓存 读 取 二 维 数组 的 示例 。 请 问 一 个 更 大 矩阵 和 一 个 更 大 的 缓存 是 如 何 影响 两 对 册 套 

循环 的 性 能 的 ? 如 果 MAX =8， 缓 存 可 以 存储 4 个 缓存 行 ， 情 况 又 会 是 怎样 的 ? 在 第 一 对 内 套 循环 中 对 

A 的 读 操作 ， 会 导致 发 生 多 少 次 失效 ? 第 二 对 内 套 循 环 中 的 失效 次 数 又 是 多 少 ? 

在 表 2-2 中 ， 虚 拟 地 址 由 12 位 字 节 偏 移 量 和 20 位 的 虚拟 页 号 组 成 。 如 果 一 个 程序 运行 的 系统 上 拥有 

这 样 的 页 大 小 和 虚拟 地 址 空间 ， 这 个 程序 有 多 少 页 ? 

在 汉 ' 诺 依 曼 系统 中 加 入 缓存 和 虚拟 内 存 改变 了 它 作 为 SISD 系统 的 类 型 吗 ? 如 果 加 人 流水 线 呢 ? 多 发 

射 或 硬件 多 线程 呢 ? 

假设 一 个 向 量 处 理 器 的 内 存 系统 需要 用 10 个 周期 从 内 存 载 人 一 个 64 位 的 字 。 为 了 使 一 个 载 人 流 的 平 

均 载 人 时 间 为 一 个 周期 载 人 一 个 字 ， 需 要 多 少 个 内 存 体 (memory bank)? 

请 讨论 CPU 与 向 量 处 理 器 执行 以 下 代码 时 的 不 同 之 处 : 

Sum = 0.0; 

for (i = 0; i < n; i++) { 

y[i] += ax*x[i]: 
Sum += zZ[j]*zfi]: 

} 

如 果 硬 件 多 线程 处 理 器 拥有 大 缓存 ， 并 且 运 行 多 个 线程 ， 请 解释 为 何 该 处 理 器 的 性 能 会 下 降 。 

在 关于 并 行 硬件 的 讨论 中 ， 用 Flynn 分 类 法 来 识别 三 种 并 行 系统 : SISD 、SIMD 和 MIMD。 我 们 讨论 的 

系统 中 没有 多 指令 流 单数 据 流 系统 ， 或 者 称 为 MISD 系统 。 那 么 ，MISD 系统 是 如 何 工 作 的 呢 ? 请 举例 

说 明 。 


2.10 ”假设 一 个 程序 需要 运行 10” 条 指令 来 解决 一 个 特定 问题 ， 一 个 单 处 理 器 系统 可 以 在 10* 秒 (大 约 11.6 


天 ) 内 完成 。 所 以 ， 一 个 单 处 理 器 系统 平均 每 秒 运行 10" 条 指令 。 现 在 假设 程序 已 经 实现 并 行 化 ， 可 
以 在 分 布 式 内 存 系统 上 运行 。 该 并 行程 序 使 用 p 个 处 理 器 ， 每 个 处 理 器 执行 10”/p 条 指令 并 必须 发 
送 10”(p -1) 条 消息 。 执 行 该 程序 时 ， 不 会 有 额外 的 开销 ， 即 每 个 处 理 器 执行 完 所 有 的 指令 并 发 送 
完 所 有 的 消息 之 后 ， 程 序 就 完成 了 ， 而 不 会 有 由 诸如 等 待 消息 等 事件 所 产生 的 延迟 。 那 么 ， 
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a. 假设 发 送 一 条 消息 需要 耗费 10“ 秒 。 如 果 程序 使 用 1000 个 处 理 器 ， 每 个 处 理 器 的 速度 和 单个 处 理 
器 运行 串 行程 序 的 速度 一 样 ， 那 么 该 程序 的 运行 需要 多 少时 间 ? 

b. 假设 发 送 一 条 消息 需要 耗费 10… 秒 。 如 果 程 序 使 用 1000 个 处 理 器 ,那么 该 程序 的 运行 需要 多 
少时 间 ? 

请 写 出 不 同 的 分 布 式 内 存 互 连 形式 的 总 链 路 数 的 表达 式 。 

a 除了 没有 循环 链接 ( “wraparound”link ) , 平面 网 格 (planar mesh) 和 二 维 环 面 网 格 (toroidal 
mesh) 是 相似 的 。 请 问 一 个 平面 网 格 的 等 分 宽度 是 多 少 ? 

b. 三 维 网 格 与 平面 网 格 是 相似 的 ， 除 了 三 维 网 格 拥 有 深度 这 个 特性 外 。 请 问 一 个 三 维 网 格 的 等 分 宽 
度 是 多 少 ? 

a 请 画 出 一 个 四 维 超 立方 体 结构 。 

b， 请 用 超 立 方 体 的 归纳 定义 来 解释 为 何 超 立方 体 的 等 分 宽度 为 p/2。 

为 了 定义 间接 网 络 的 等 分 宽度 ， 我 们 将 处 理 器 分 为 两 组 ， 每 组 拥有 一 半数 量 的 处 理 器 。 然 后 ,在 网 

络 的 任意 处 移 除 链接 ， 使 两 组 之 间 不 再 连接 。 移 除 的 最 小 链 路 数 就 是 该 网 络 的 等 分 宽度 。 当 我 们 对 

链 路 计数 时 ， 如 果 图 中 用 的 是 单 向 链接 ， 则 两 条 单 向 链接 算 作 一 条 链 路 。 请 说 明 一 个 8 x8 的 交叉 开 

关 和 矩阵 的 等 分 宽度 小 于 或 等 于 8 ， 并 说 明 一 个 拥有 8 个 处 理 器 的 omega 网 络 的 等 分 宽度 小 于 或 等 于 4。 

a. 假定 一 个 共享 内 存 系统 使 用 监听 缓存 一 致 性 协议 和 写 回 缓存 。 并 且 假 设 0 号 核 的 缓存 里 有 变量 x， 

并 执行 赋值 命令 X=5。1 号 核 的 缓存 里 没有 变量 x。 当 0 号 核 更 新 了 x 后 ，! 号 核 开 始 尝试 执行 y = 

x。y 被 赋 的 值 是 多 少 ? 为 什么 ? 

b. 假定 上 面 的 共享 内 存 系统 使 用 的 是 基于 目录 的 协议 ， 则 y 的 值 将 是 多 少 ? 为 什么 ? 

c. 你 能 否 为 前 两 部 分 中 所 发 现 的 问题 提出 解决 方案 ? 

a 假定 一 个 串 行程 序 的 运行 时 间 为 7s5 =n ， 运 行 时 间 的 单位 为 毫秒 。 并 行程 序 的 运行 时 间 为 Ty; 
=w/p+log，(p)。 对 于 nn 和 p 的 不 同 值 ， 请 写 一 个 程序 并 找 出 这 个 程序 的 加 速 比 和 效率 。 在 n= 
10、20、40、…、320 和 p =1、2、4 、… 、128 等 不 同情 况 下 运行 该 程序 。 当 p 增加 、n 保持 恒定 
时 ， 加 速 比 和 效率 的 情况 分 别 如 何 ” 当 p 保持 恒定 而 增加 呢 ? 

b. 假设 Tye#; = 7 和 AP + 了 下 铀 ， 我 们 固定 p 的 大 小 ， 并 增加 问题 的 规模 。 

。 请 解释 如 果 Tew 比 Ts 增长 得 慢 ， 随 着 问题 规模 的 增加 ， 并 行 效率 也 将 增加 。 

。 请 解释 如 果 Ti 比 745 增 长 得 快 ， 随 着 问题 规模 的 增加 ， 并 行 效率 将 降低 。 

如 果 一 个 并 行程 序 所 获得 的 加 速 比 可 以 超过 P (进程 或 线程 的 个 数 ) ， 则 我 们 有 时 称 该 并 行程 序 拥有 

超 线性 加 速 比 (superlinear speedup) 。 然 而 ， 许 多 作者 并 不 将 能 够 克服 “资源 限制 ”的 程序 视 为 是 拥 

有 超 线 性 加 速 比 。 例 如 ， 当 一 个 程序 运行 在 一 个 单 处 理 器 系统 上 时 ， 它 必须 使 用 二 级 存储 ， 当 它 运 

行 在 一 个 大 的 分 布 式 内 存 系统 上 时 ， 它 可 以 将 所 有 数据 都 放置 到 主 存 上 。 请 给 出 另外 一 个 例子 ， 说 

明 程 序 是 如 何 克 服 资源 限制 ， 并 获得 大 于 p 的 加 速 比 的 。 

请 观察 你 在 计算 机 科学 导论 课 上 编写 的 三 个 程序 。 这 些 程序 中 有 哪些 部 分 本 来 就 是 串 行 的 ? 当 问 题 

规模 增加 时 ， 串 行 部 分 工作 所 占 的 比例 会 减少 吗 ? 或 者 保持 大 致 相同 ? 

假定 785 =m，785 = mp +log。(p)， 时 间 单 位 为 毫秒 。 如 果 以 倍率 上 增加 p， 那 么 为 了 保持 效率 值 

的 恒定 ， 需 要 如 何 增加 n? 请 给 出 公式 。 如 果 我 们 将 进程 数 从 8 加 倍 到 16， 则 = 的 增加 又 是 多 少 ? 该 

并 行程 序 是 可 扩展 的 吗 ? 

一 个 可 以 获得 线性 加 速 比 的 程序 是 强 可 扩展 的 吗 ? 请 解释 。 

Bob 有 个 程序 ， 想 对 两 组 数据 进行 计时 ，input_datal 和 input_data2。 为 了 在 程序 中 加 入 计时 项 

数 前 得 到 一 些 想法 ， 他 用 两 组 数据 和 UNIX 的 shell 命令 time ， 运 行 了 程序 : 

$ time .ybobs-prog < input_datal 

real Om0.001s 

user Om0.001s 


sys 0mn0.000s 
$ time ./bobs-prog < input-data2 


real lml.234s 
user 1m0.001s 
Sys OmO.1lls 


2. 22 


2.23 
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Bob 用 的 时 间 函 数 的 精度 为 毫秒 。Bob 应 该 使 用 第 一 组 数据 和 时 间 沙 数 对 他 的 程序 进行 计时 吗 ? 如 果 
使 用 第 二 组 数据 呢 ? 请 分 别 解释 使 用 和 不 使 用 的 原因 。 

正如 我 们 在 习题 2. 21 中 所 看 到 的 ，UNIX 的 shel 命令 time 报告 用 户 时 间 、 系 统 时 间 ， 以 及 “实际 ” 
时 间或 全 部 耗费 的 时 间 。 假 设 Bob 定义 了 以 下 这 些 可 以 被 C 程序 调用 的 郴 数 : 

double utime(void ) ; 

double stime(void); 

double rtime(void ) ; 

第 一 个 函数 返回 的 是 从 程序 开始 执行 用 户 时 间 所 耗费 的 秒 数 。 第 二 个 返回 的 是 系统 时 间 秒 数 ， 第 三 
个 是 总 时 间 秒 数 。 大 臻 上， 用 户 时 间 主 要 耗费 在 不 需要 操作 系统 执行 的 用 户 代 码 和 库 函 数 上 ， 如 
sin 和 cos 函数 。 系 统 时 间 耗 费 在 那些 需要 操作 系统 执行 的 函数 上 ， 如 printf 和 scanf 渗 数 。 

a 这 三 个 时 间 函 数值 的 数学 关系 是 什么 样 的 ? 假定 程序 包含 如 下 代码 : 


U= double utime(void): 
s = double stime(void); 
r= double rtime(void); 
请 写 出 u、s 和 『 之 间 关 系 的 表达 式 〈 可 以 假定 忽略 函数 调用 的 时 间 花 费 ) 。 

b. 在 Bob 的 系统 上 ， 任 何 时 候 ， 如 果 一 个 MPI 进程 在 等 待 消息 ， 则 它 花费 的 时 间 不 计 人 utime 和 
stime， 而 计 和 人 rtime。 请 解释 Bob 是 如 何 根据 这 些 条 件 来 确定 一 个 MPI 进程 是 否 在 等 待 消息 上 
耗费 了 过 多 时 间 。 

c，Bob 提供 给 了 Sally 他 的 计时 函数 。 然 而 ，Sally 发 现在 她 的 系统 上 ， 一 个 MPI 进程 在 等 待 消息 上 的 
时 间 耗 费 是 计 入 用 户 时 间 的 。 那 么 ，Sally 可 以 用 Bob 的 函数 去 判断 一 个 MPI 进程 是 否 在 等 待 消息 
上 耗费 了 过 多 时 间 吗 ? 请 解释 。 

在 我 们 应 用 Foster 方法 来 构建 直方 图 的 过 程 中 ,我 们 实质 上 是 用 data 数组 的 元 素来 识别 聚合 任务 

的 。 一 个 很 明显 的 替代 方法 是 ， 使 用 bin_counts 数组 的 元 素来 识别 聚合 任务 ， 所 以 一 个 聚合 任务 

会 由 bin_counts[b] 的 增加 ， 和 返回 b 的 Find_bin 函数 的 调用 所 组 成 。 请 解释 为 何 这 样 的 聚合 可 

能 存在 问题 。 

如 果 你 在 第 1 章 还 没有 完成 ， 那 么 请 试 着 编写 树 形 结构 的 全 局 求 和 的 伪 代 码 ， 其 作用 是 对 10c_bin_ 

cts 数组 的 元 素 进行 求 和 。 请 先 考虑 在 共享 内 存 的 情况 下 该 如 何 实现 。 接 着 考虑 分 布 式 内存 的 情况 。 

在 共享 内 存 的 情况 下 ， 哪 些 变量 是 共享 的 ， 哪 些 是 私有 的 ? 
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回想 一 下 ， 大 部 分 并 行 多 指令 多 数据 流 计算 机 ， 都 分 为 分 布 式 内 存 系统 和 共享 内 存 系统 两 
种 。 从 程序 员 的 角度 看 ， 一 个 分 布 式 内 存 系统 由 网 络 连接 的 核 - 内 存 对 的 集合 组 成 ， 与 核 相 关联 
的 内 存 只 能 由 该 核 访问 。 如 图 3-1 所 示 。 另 一 方面 ， 从 程序 员 的 角度 看 ， 共 享 内 存 系统 由 核 的 集 
合 组 成 ， 所 有 核 都 连接 到 一 个 全 局 访问 的 内 存 ， 且 每 个 核 可 以 访问 内 存 的 任意 位 置 。 如 图 3-2 所 
示 。 本 章 将 讨论 如 何 使 用 消息 传递 来 对 分 布 式 内 存 系统 进行 编程 。 
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图 3-1 一 个 分 布 式 内 存 系统 

在 消息 传递 程序 中 ， 运 行 在 一 个 核 - 内 存 对 上 的 程序 通常 称 为 一 个 进程 。 两 个 进程 可 以 通过 
调用 函数 来 进行 通信 : 一 个 进程 调用 发 送 函 数 ， 另 一 个 调用 接收 函数 。 我 们 将 使 用 消息 传递 的 实 
现 称 为 消息 传递 接口 (Message-Passing Interface ，MPI) 。MPI 并 不 是 一 种 新 的 语言 ， 它 定义 了 一 个 
可 以 被 C、C ++ 和 Fortran 程序 调用 的 消 数 库 。 我 们 将 学 习 MPI 中 的 一 些 不 同 的 发 送 与 接收 函数 ， 
还 将 学 习 一 些 可 以 涉及 多 于 两 个 进程 的 “全 局 ”通信 孙 数 。 这 些 函 数 称 为 集合 通信 。 在 学 习 这 些 
MPI 函数 的 过 程 中 ， 我 们 还 会 了 解 一 些 涉及 编写 消息 传递 程序 的 基本 问题 ， 如 数据 的 分 割 和 分 布 

式 内 存 系统 中 的 IO。 我 们 还 将 重 温 关于 并 行程 序 性 能 的 一 些 问题 。 

中 央 处 理 单元 。 中 央 处 理 单元 “中央 处 理 单元 中 央 处 理 单元 











图 3-2 一 个 共享 内 存 系统 


3.1 预备 知识 
我 们 中 大 部 分 人 的 第 一 个 程序 可 能 都 是 从 Kernighan 和 Ritchie 的 经 典 “hello，world” 程 序 
[29] 而 来 的 : 
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#include <stdio.h> 


int main(void)i 
printf("hello, world n"):; 


return 0; 
} 


让 我 们 用 MPI 来 编写 一 个 类 似 的 “hello，world” 程 序 。 不 让 每 个 进程 都 简单 地 打印 一 条 消息 ， 相 
反 ， 我 们 指派 其 中 的 一 个 进程 负责 输出 ， 而 其 他 进程 向 它 发 送 要 打印 的 消息 。 

在 并 行 编程 中 ， 将 进程 按照 非 负 整 数 来 进行 标注 是 非常 常见 的 。 如 果 有 p 个 进程 ， 则 这 些 进 
程 将 被 编号 为 0，1，2，… ，p -1。 对 于 我 们 的 并 行 “hello，world” 程 序 ， 我 们 指派 0 号 进程 为 
输出 进程 ， 其 余 进 程 向 它 发 送 消息 。 参 见 程 序 3-1。 


3. 1.1 编译 与 执行 

编译 与 运行 程序 的 细节 主要 取决 于 系统 ， 所 以 你 可 能 需要 询问 本 地 专家 。 然 而 ， 当 我 们 需要 
清晰 地 理解 细节 时 ， 我 们 会 假定 使 用 一 个 文本 编辑 器 来 编写 程序 代码 ， 并 且 用 命令 行 形式 来 编译 
和 运行 程序 。 许 多 系统 都 有 称 为 mpicc 的 命令 来 编译 程序 

$ mpicc -9g -Wall ~o mpi_hello mpi-hel1o.c 
典型 情况 下 ，mpicc 是 C 语言 编译 器 的 包装 脚本 (wrapper script)。 包 装 脚本 的 主要 目的 是 运行 
某 个 程序 。 在 这 种 情况 下 ， 程 序 就 是 C 语言 编译 器 。 通 过 告知 编译 器 从 何 处 取得 需要 的 头 文件 、 
什么 库 函 数 连接 到 对 象 文 件 等 ， 包 装 脚本 可 以 简化 编译 器 的 运行 。 

程序 3-1 ”打印 来 自 进程 问候 语句 的 MPI 程序 





1 #include <stdio.h> 

2 #include <string.h> /x For strien Ey 

3 #inciude <mpi.h> /* For MPI functions, etc *#/ 

4 

5 const int MAX-STRING = 100; 

6 

7 int main(void) { 

8 char greeting[MAX_STRING]; 

9 int comm.sz; /#4 Number of processes */ 

10 int my-rank; /x My process rank hk 

11 

12 MPI_Init(NULL，NULL) : 

13 MPlI-Comm-size(MPI-COMM-NORLD ，&Ccomm-sz ) ; 

14 MPIComm_rank (MPI_COMM_WORLD, &my_rank); 

15 

16 if (my-rank != 0) { 

17 sprintf(greeting, "Greetings from process %d of %d!", 

18 my-rank , comm_sz): 

19 MPl_Send(greeting, strlen(greeting)+l, MPI_CHAR, 0. 0, 

20 MPI_COMM_WORLD):; 

21 ] else { 

22 printf("Greetings from process %d of %di\n"”, my-rank, 
Comm-sz) ; 

23 for (int q = 1: q < comm_sz; q+t+) { 

24 MPI_Recv(greeting, MAX_STRING, MPI_CHAR, q, 

25 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE); 

26 printf("%s\n", greeting): 

27 

28 上 

29 

30 MPI_Finalizel)}); 

31 return 0:; 

32 } /+x Mmain */ 





合 ” 美 元 符号 $ 是 shell 提示 符 ， 它 不 需要 输入 。 为 保证 表达 的 清晰 ， 我 们 假定 使 用 的 是 Gnu C 编译 器 ，gcc， 我 们 一 
般 总 会 使 用 -9、 -Wall 和 -0 选项 。 更 多 信息 参见 2.9 节 。 
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许多 系统 还 支持 用 mpiexec 命令 来 启动 程序 : 


$ mpiexec ~n <number of processes> ./mpi.hello 


所 以 , 为 了 用 1 个 进程 运行 程序 ， 我 们 输入 ， 


$ mpiexec —n 1 ./mpi_hello 


所 以 , 为 了 用 4 个 进程 运行 程序 ,我 们 输入 ， 


$ mpiexec ~n 4 ./mpi_hello 


对 于 1 个 进程 的 程序 ， 输 出 为 ， 


Greetings from process 0 of 11 


对 于 4 个 进程 的 程序 ， 输 出 为 ， 


Greetings from process 0 of 41! 
Greetings from process 1 of 4! 
Greetings from process 2 of 4! 
Greetings from process 3 of 4! 


如 何 得 到 调用 mpiexec 命令 所 产生 的 结果 呢 ? mpiexec 命令 告诉 系统 启动 < number of 
processes > 个 <mpi_he110 > 程序 的 实例 。 它 或 许 还 会 告诉 系统 每 个 实例 在 哪个 核 上 运行 。 
当 进 程 运行 后 ，MPI 保证 进程 间 可 以 互相 通信 。 

3. 1.2 MPI 程序 

我 们 进一步 观察 这 个 程序 。 首 先 ， 这 是 一 个 C 语言 程序 , 它 包含 了 C 语言 的 标准 头 文件 
stdio.h 和 string.h， 它 还 有 一 个 像 其 他 C 语言 程序 一 样 的 main 函数 。 然 而 ， 程 序 中 的 许多 
部 分 却 是 新 的 。 第 3 行 包含 了 mpi. h 头 文件 。 头 文件 包括 了 MPI 函数 的 原形 、 宏 定义 、 类 型 定义 
等 ， 它 还 包括 了 编译 MPI 程序 所 需要 的 全 部 定义 与 声明 。 

我 们 观察 到 的 第 二 件 事 是 ， 所 有 MPI 定义 的 标识 符 都 由 字符 串 MPI_ 开 始 。 下 划 线 后 的 第 一 
个 字母 大 写 ， 表 示 函 数 名 和 MPI 定义 的 类 型 。MPI 定义 的 宏和 常量 的 所 有 字母 都 是 大 写 的 ， 这 样 
可 以 区 分 什么 是 MPI 定义 的 ,什么 是 用 户 程序 定义 的 。 


3.1.3 MPI_Init 和 MPI_Finalize 

第 12 行 中 , 调用 MPI_Init 是 为 了 告知 MPI 系统 进行 所 有 必要 的 初始 化 设置 。 例 如 ， 系 统 
可 能 需要 为 消息 缓冲 区 分 配 存 储 空间 ， 为 进程 指定 进程 号 等 。 从 经 验 上 看 ， 在 程序 调用 MPI_ 
Init 前 ,不 应 该 调用 其 他 MPI 函数 。 它 的 语法 结构 为 : 


int MPI_INitt 
intx argc-p /A# in/out */, 
Charx**# argv-p /A# in/out */); 


参数 argc_p 和 argv_p 是 指向 参数 argc 和 argy 的 指针 。 然 而 ， 当 程序 不 使 用 这 些 参数 时 ， 
可 以 只 是 将 它们 设置 为 NULL。 就 像 大 部 分 的 MPI 函数 一 样 ，MPI_Init 返回 一 个 int 型 错误 码 ， 
在 大 部 分 情况 下 ， 我 们 忽略 这 些 错误 码 。 

第 30 行 中 ， 调 用 MPI_Finalize 是 为 了 告知 MPI 系统 MPI 已 经 使 用 完毕 ， 为 MPI 而 分 配 的 
任何 资源 都 可 以 释放 了 。 它 的 语法 结构 很 简单 : 


int MPI._Finalize(void); 


一 般 而 言 ， 在 调用 MPI_Finalize 后 ， 就 不 应 该 调用 MPI 函数 了 。 
因此 ， 一 个 典型 的 MPI 程序 有 如 下 基本 框架 : 
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#include <mpi.h> 
int main(int argc, charx argv[]) 了 


/x No MPI calls before this */ 
MPI_INit(&argc, &argv):; 


MPI_Finalizel); 
[kk No MPI calls after this */ 
return 0; 
} 
而 且 ， 我 们 已 经 知道 ， 我 们 并 不 一 定 要 向 MPI_Init 传递 agrc 和 argv 的 指针 ， 也 不 一 定 要 在 
main 函数 中 调用 MPI_In 让 和 MPI_Finaljze。 


3.1.4 通信 子 、MPI_Comm_size 和 MPI_Comm_rank 

在 MPI 中 ， 通 信子 (communicator) 指 的 是 一 组 可 以 互相 发 送 消息 的 进程 集合 。MPI_Init 
的 其 中 一 个 目的 ， 是 在 用 户 启 动 程序 时 ， 定 义 由 用 户 启动 的 所 有 进程 所 组 成 的 通信 子 。 这 个 通信 
子 称 为 MPI_COMM_WORLD。 在 第 13 行 、 第 14 行 调 用 的 函数 可 以 获取 关于 MPI_COMM_WORLD 的 
信息 。 这 些 函 数 的 语法 结构 为 : 


int MPI_-COomm_-sizel 
MPI_Comm comm /x iin x*/, 
int* Comm-sz-p /x Out #/): 








int MPI_Comm_rankt 
MPI_Comm comm /*# in #*/, 
intx* my-rank-p zk Out */); 


这 两 个 函数 中 ， 第 一 个 参数 是 一 个 通信 子 ， 它 所 属 的 类 型 是 MPI 为 通信 子 定义 的 特殊 类 型 : MPI 
_Comm。MPI_Comm_size 函数 在 它 的 第 二 个 参数 里 返回 通信 子 的 进程 数 ; MPI_Comm_rank 限 
数 在 它 的 第 二 个 参数 里 返回 正在 调用 进程 在 通信 子 中 的 进程 号 。 在 MPI_COMM_WORLD 中 经 常用 
参数 comm_sz 表示 进程 的 数量 ， 用 参数 my_rank 来 表示 进程 号 。 


3. 1.5 SPMD 程序 

注意 ， 我 们 刚才 编译 的 是 单个 程序 ， 而 不 是 为 每 个 进程 编译 不 同 的 程序 。 尽 管 0 号 进程 本 质 
上 做 的 事情 与 其 他 进程 不 同 。0 号 进程 所 做 的 事 ， 主 要 是 当 其 他 进程 生成 和 发 送 消息 时 ， 它 负责 
接收 消息 并 打印 出 来 。 这 在 并 行 编程 中 很 常见 。 事 实 上 ， 大 部 分 MPI 程序 都 是 这 么 写 的 。 也 就 是 
说 ,编写 一 个 单个 程序 ， 让 不 同 进程 产生 不 同 动作 。 实 现 方式 是 ， 简 单 地 让 进程 按照 它们 的 进程 
号 来 匹配 程序 分 支 。 这 一 方法 称 为 单程 序 多 数据 流 (Single Program，Multiple Data，SPMD ) 。 第 
16 行 ~ 第 28 行 的 if - else 语句 使 得 我 们 的 程序 是 SPMD 的 。 

另外 需要 注意 的 是 ， 我 们 的 程序 原则 上 可 以 运行 任意 数量 的 进程 。 我 们 先前 看 到 它 可 以 在 1 
个 或 4 个 进程 上 运行 。 但 如 果 系 统 有 足够 的 资源 ， 那 么 可 以 在 1000 个 ， 甚 至 10 万 个 进程 上 运行 。 
虽然 MPI 并 不 需要 程序 具有 这 样 的 属性 ， 但 是 我 们 总 是 一 直 试 着 编写 程序 ， 使 之 可 以 运行 任意 数 
量 的 进程 。 这 是 因为 我 们 通常 事先 并 不 知道 可 用 的 资源 到 底 有 多 少 。 例 如 ， 现 在 有 一 个 20 核 的 
系统 ， 但 是 将 来 可 能 会 拥有 一 个 500 核 的 系统 。 


3.1.6 通信 

在 第 17 行 和 第 18 行 中 ， 除 了 0 号 进程 外 ， 每 个 进程 都 生成 了 一 条 要 发 送 给 0 号 进程 的 消息 
(Sprintf 函数 和 printf 函数 类 似 ， 它 不 是 输出 到 标准 输出 stdout ， 而 是 输出 到 一 个 字符 串 
中 ) 。 第 19 行 和 第 20 行 代码 将 消息 发 送 给 0 号 进程 。 另 一 方面 ，0 号 进程 只 是 用 printf 函数 简 
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单 地 将 消息 打印 出 来 ， 然 后 用 一 个 for 循环 接收 并 打印 由 1、2、…、comm_sz -1 号 进程 发 送 来 
的 消息 。 第 24 行 和 第 25 行 接收 由 4 号 进程 发 送 来 的 消息 ， 其 中 , g=1、2、…、comm_sz -1。 
3.1.7 MPI_Send 

由 1、2、…、cComm_sz -1 号 进程 执行 的 发 送 其实 是 很 复杂 的 ， 我 们 可 以 进一步 地 看 看 里 面 
是 如 何 实现 的 。 每 个 发 送 都 是 由 调用 MPI1_Send 来 实现 的 ， 其 语法 结构 为 : 


int MPI_Sendt 
void* msg-buf-p /A* In */, 
int msg_size /¥ In */, 
MPI_Datatype msg-type /* in */, 
int dest /* TH wf 
int tag /x In 冰 / 
MPI_Comm communicator /x in */); 


前 三 个 参数 ，msg_buf_p 、msg_size 和 msg_type 定义 了 消息 的 内 容 。 剩 下 的 参数 ，dest、 
tag 和 communicator 定义 了 消息 的 目的 地 。 

第 一 个 参数 msg_buf_p 是 一 个 指向 包含 消息 内 容 的 内 存 块 的 指针 。 在 我 们 的 程序 中 ， 这 是 
一 个 包含 了 消息 的 字符 串 greeting (在 C 语言 中 ， 像 这 样 的 字符 串 数组 ， 其 实 是 个 指针 ) 。 第 
二 个 和 第 三 个 参数 ，msg_size 和 msg_type， 指 定 了 要 发 送 的 数据 量 。 在 我 们 的 程序 中 ， 参 数 
msg_size 是 消息 字符 串 加 上 C 语言 中 字符 串 结 束 符 上 0' 所 占 的 字符 数量 。 参 数 msg_type 的 值 
是 MPI_CHAR。 这 两 个 参数 一 起 告知 系统 整个 消息 含有 strlen(greeting) +1 个 字符 。 

因为 C 语言 中 的 类 型 (int 、char 等 ) 不 能 作为 参数 传递 给 函数 ， 所 以 MPI 定义 了 一 个 特殊 
类 型 : MPI_Datatype， 用 于 参数 msg_type。MPI 也 为 这 个 类 型 定义 了 一 些 常量 ， 表 3-1 列 出 
了 要 用 到 的 一 些 数据 类 型 。 


表 3-1 一些 预先 定义 的 MPI 数据 类 型 


C 语言 数据 类 型 MPI 数据 类 型 
MPI_UNSIGNED 


signed char 
MPI_UNSIGNED_LONG 





















MPI 数据 类 型 
MPL CHAR 


C 语言 数据 类 型 


unsigned int 











MPI_SHORT signed short int 






unsigned long int 















MPI_INT signed int MPI_FLOAT float 


MPI_DOUBLE | double 








MPL LONG signed long int 















MPI_LONG_LONG 
MPI_UNSIGNED_CHAR 


signed long long int MPI_LONG_DOUBLE 


MPI_BYTE 
MPI. PACKED 


我 们 注意 到 ， 字 符 串 greeting 的 大 小 与 msg_-size 和 msg.type 所 指定 的 消息 的 大 小 并 不 
相同 。 例 如 ， 当 我 们 用 4 个 进程 运行 程序 时 ， 每 条 消息 的 长 度 为 31 个 字符 ， 但 我 们 分 配 长 度 为 
100 个 字符 的 缓冲 区 来 存储 greeting 字符 串 。 当 然 ， 发 送 消息 的 大 小 必须 小 于 或 等 于 缓冲 区 的 
大 小 ， 如 程序 中 的 greeting 字符 串 。 

第 四 个 参数 dest 指定 了 要 接收 消息 的 进程 的 进程 号 。 第 五 个 参数 tag 是 个 非 负 int 型， 用 
于 区 分 看 上 去 完全 一 样 的 消息 。 例 如 ,假定 1 号 进程 正在 向 0 号 进程 发 送 浮 点 数 ， 其 中 一 些 浮 点 
数 需 要 打印 出 来 ， 而 另 一 些 用 于 计算 。 那 么 ，MPI_Send 的 前 4 个 参数 并 不 能 提供 相应 的 信息 ， 
从 而 知道 哪些 浮 点 数 是 需要 打印 的 ， 哪 些 又 是 用 于 计算 的 。 所 以 ，! 号 进程 可 以 用 ， 也 就 是 说 ， 
tag 标签 为 0 就 表示 消息 是 要 打印 的 ， 为 1 就 表示 消息 是 用 于 计算 的 。 

MPI_Send 的 最 后 一 个 参数 是 一 个 通信 子 。 所 有 涉及 通信 的 MPI 函数 都 有 一 个 通信 子 人 参数。 


Iong double 















unsigned char 


















MPI_UNSIGNED_SHORT unsigned short int 
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通信 子 最 重要 的 目的 之 一 是 指定 通信 范围 。 通 信子 指 的 是 一 组 可 以 互相 发 送 消息 的 进程 的 集合 。 
反 过 来 ， 一 个 通信 子 中 的 进程 所 发 送 的 消息 不 能 被 另 一 个 通信 子 中 的 进程 所 接收 。 由 于 MPI 提供 
了 创建 新 通信 子 的 函数 ， 因 此 通信 子 这 一 特性 可 以 用 于 复杂 程序 ， 并 保证 消息 不 会 意外 地 在 错误 
的 地 方 被 接收 。 

举 个 例子 来 阐明 这 一 特性 。 假 设 我 们 正在 研究 全 球 气候 变化 ， 并 且 很 幸运 地 得 到 了 两 个 函数 
库 ， 一 个 用 来 对 地 球 大 气 层 进行 建 模 ， 另 一 个 用 来 对 地 球 上 的 海洋 进行 建 模 。 当 然 ， 这 两 个 库 都 
使 用 了 MPI。 这 些 模型 是 分 开 建立 的 ， 所 以 它们 之 间 不 会 相互 通信 ， 但 它们 内 部 可 以 进行 通信 。 
我 们 的 工作 就 是 编写 接口 代码 。 我 们 需要 解决 的 一 个 问题 是 ， 要 保证 一 个 库 发 送 的 消息 不 会 意外 
地 被 男 一 个 库 所 接收 。 我 们 可 能 会 利用 标签 来 制定 解决 方案 ,大气层 函数 库 使 用 标签 0、1 
-1; 海洋 函数 库 使 用 标签 nin、n +1、…、n+m。 那 么 每 个 函数 库 就 可 以 使 用 给 定 的 范围 给 出 消 
息 的 标签 。 然 而 ， 一 个 更 为 简单 的 方法 是 由 通信 子 提供 的 ,我们 只 需要 简单 地 给 大 气 层 库 函 数 一 
个 通信 子 ， 将 另 一 个 通信 子 给 海洋 库 函 数 就 行 了 。 

3.1.8 MPI_Recv 
MPI_Recy 的 前 六 个 参数 对 应 了 MPI_Send 的 前 六 个 参数: 


int MPI_-RecV 
VOjidr* msg_buf_p /hk OuUt */, 
int buf.size A Tn 水 A 
MPI_Datatype buf-type /*¥ in 本 /， 
int source /x in */, 
int tag /A# iN */, 
MPI_Comm communicator /x Tn #*/, 
MPI1.Status* status_p /kk Out */): 


因此 ， 前 三 个 参数 指定 了 用 于 接收 消息 的 内 存 : msg_buf_p 指向 内 存 块 ，buf_size 指定 了 内 存 
块 中 要 存储 对 象 的 数量 ，buf_type 说 明了 对 象 的 类 型 。 后 面 的 三 个 参数 用 来 识别 消息 。 参 数 
source 指定 了 接收 的 消息 应 该 从 哪个 进程 发 送 而 来 ， 参 数 tag 要 与 发 送 消息 的 参数 tag 相 匹 

配 ， 参 数 communicator 必须 与 发 送 进程 所 用 的 通信 子 相 匹配 。 简 短 地 介绍 参数 status_p。 在 

大 部 分 情况 下 ， 调 用 函数 并 不 使 用 这 个 参数 ， 就 像 我 们 的 “greeting” 程 序 中 那样 ， 赋 予 其 特殊 的 
MPI 常量 MPI_STATUS_IGNORE 就 行 了 。 


3.1.9 消息 匹配 
假定 g 号 进程 调用 了 MPI_Send 函数 : 


MPI-Send(send-buf-p，send-buf-sz，send_type，dest，send_tag， 
send_comm); 


并 且 假 定 r 号 进程 调用 了 MPI_Recy 函数 ， 


MPI_Recv(recv-buf-p ，recv-buf-sz，recy-type，SrCc，recv-tag ， 
recv_comm, &status); 


则 4 号 进程 调用 MPI_Send 函数 所 发 送 的 消息 可 以 被 > 号 进程 调用 MPI_Recy 函数 接收 ， 如 果 : 
recy-cComm = send_comm, 

recv-tag = send_tag, 

dest = r, 并 且 

src = q. 

然而 ,这 些 条 件 还 不 足以 使 消息 可 以 成 功 地 接收 。 前 三 对 参数 : send_buf_p /recv_buf_p、 
send_buf_sz /recv_buf_sz 和 send_type /recv_type 必须 指定 兼容 的 缓冲 区 。 详细 的 规 
则 ， 请 参见 MPI - 1 说 明 [39] 。 大 多 数 时 候 ， 满 足下 面 的 规则 就 可 以 了 : 
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e 如 果 recv_type = send_type, 同时 recv_buf_sz Send_buf_sz， 那 么 由 9 号 进 
程 发 送 的 消息 就 可 以 被 r 号 进程 成 功 地 接收 。 

当然 ， 一 个 进程 可 以 接收 多 个 进程 发 来 的 消息 ， 接 收 进程 并 不 知道 其 他 进程 发 送 消息 的 顺 

序 。 例 如 ,假设 0 号 进程 将 任务 分 发 给 1、2、…、comm_sz -1 号 进程 ,并且 1、2、…、comm_ 

sz -1 号 进程 在 完成 工作 时 将 结果 发 还 给 0 号 进程 。 如 果 分 配给 每 个 进程 的 工作 所 要 耗费 的 时 间 

是 无 法 预测 的 ， 那么 0 号 进程 就 无 法 知道 其 他 进程 完成 工作 的 顺序 。 如 果 0 号 进程 只 是 简单 地 按 

照 进程 号 顺序 地 接收 结果 ， 即 先 接收 1 号 进程 的 结果 ， 再 接收 2 号 进程 的 结果 ， 以 此 类 推 , 并 
且 ， 如 果 commsz -1 号 进程 是 第 一 个 完成 工作 的 ,那么 有 可 能 comm_sz -1 号 必须 等 待 其 他 进 

BD 程 的 完成 。 为 了 避免 这 个 问题 ，MPI 提供 了 一 个 特殊 的 常量 MPI_ANY_S0URCE， 可 以 传递 给 MPI 
_Recv。 这 样 ， 如 果 0 号 进程 执行 下 列 代码 ， 那 么 它 可 以 按照 进程 完成 工作 的 顺序 来 接收 结果 了 : 


for (i = 1; i < comm_sz; i++) { 
MPI_Recvy(result, result.sz, result.type, MPI_ANY.SOURCE, 
result.tag, comm, MPI_STATUS_1GNORE}); 
Process-result(result); 
} 


类 似 地 ， 一 个 进程 也 有 可 能 接收 多 条 来 自 另 一 个 进程 的 有 着 不 同 标签 的 消息 ， 并 且 接 收 进程 
并 不 知道 消息 发 送 的 顺序 。 在 这 种 情况 下 ，MPI 提供 了 特殊 常量 MPI_ANY_TAG， 可 以 将 它 传 给 
MPI_Recy 的 参数 tag。 

当 使 用 这 些 “ 通 配 符 ” (wildcard) 参数 时 ， 有 几 点 需要 强调 : 

1) 只 有 接收 者 可 以 使 用 通配符 参数 。 发 送 者 必须 指定 一 个 进程 号 与 一 个 非 负 整 数 标 签 。 因 
此 ，MPI 使 用 的 是 所 谓 的 “ 推 ”(push) 通信 机 制 ， 而 不 是 “ 拉 ”(pull) 通信 机 制 。 

2) 通信 子 参数 没有 通配符 。 发 送 者 和 接收 者 都 必须 指定 通信 子 。 


3.1.10 status_p 参数 

如 果 你 仔细 想 想 我 们 所 说 的 这 些 规则 ， 你 会 发 现 接收 者 可 以 在 不 知道 以 下 信息 的 情况 下 接收 
消息 ; 

1) 消息 中 的 数据 量 ， 

2) 消息 的 发 送 者 , 或 

3) 消息 的 标签 。 
那么 ， 接 收 者 是 如 何 找 出 这 些 值 的 ? 回想 一 下 ，MPI_Recy 的 最 后 一 个 参数 的 类 型 为 MPI_Sta- 
tus x 。MPI 类 型 MPI_Status 是 一 个 有 至 少 三 个 成 员 的 结构 ，MPI_SOURCE、MPI_TAG 和 MPI 
_ERROR。 假定 程序 含有 如 下 的 定义 : 


MPI_Status status: 
那么 , 将 &status 作为 最 后 一 个 参数 传递 给 MPI_Recv 函数 并 调用 它 后 ， 可 以 通过 检查 以 下 两 
个 成 员 来 确定 发 送 者 和 标签 : 


status.MPI-SOURCE 
Status.MPI-TAG 


接收 到 的 数据 量 不 是 存储 在 应 用 程序 可 以 直接 访问 到 的 域 中 ,但 用 户 可 以 调用 MPI_Get_ 
count 函数 找 回 这 个 值 。 例 如 ， 假设 对 MPI_Recy 的 调用 中 ， 接 收 缓冲 区 的 类 型 为 recv_type， 
再 次 传递 &status 参数 ， 则 以 下 调用 


MPI_Get_count(&status, recv.type, &count) 


[到 ] 会 返回 count 参数 接收 到 的 元 素数 量 。 一 般 而 言 ，MPI_Get_count 的 语法 结构 为 : 
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int MPI_Get-count( 
MPI_Status* Status-p /A* in */., 
MPI_Datatype type A in */, 
intx Count-p /A#¥ OUt */); 


注意 ，count 值 并 不 能 简单 地 作为 MPI_Status 变量 的 成 员 直 接 访问 ， 因 为 它 取 决 于 接收 
数据 的 类 型 。 因 此 ， 确 定 该 值 的 过 程 需 要 一 次 计算 (如 接收 到 的 字 节 数 / 每 个 对 象 的 字 节 数 ) 。 
如 果 这 个 信息 不 是 必须 的 ， 那 么 我 们 没 必要 为 了 得 到 该 值 浪 费 一 次 计算 。 


3.1.11 MPI_Send 和 MPI_Recy 的 语义 

当 我 们 将 消息 从 一 个 进程 发 送 到 另 一 个 进程 时 ,会 发 生 什 么 ?这 其 中 的 许多 细节 取决 于 具体 
的 系统 ， 但 我 们 可 以 有 一 些 一 般 化 的 概念 。 发 送 进程 组 装 消息 ， 例 如 ， 它 为 实际 要 发 送 的 数据 添 
加 “信封 ”信息 。“ 信封” 信息 包括 目标 进程 的 进程 号 、 发 送 进程 的 进程 号 、 标 签 、 通 信子 ， 以 
及 消息 大 小 等 信息 。 一旦 消息 组 装 完毕 ， 如 第 2 章 所 说 ， 有 两 种 可 能 性 : 发 送 进 程 可 以 缓冲 消 
息 ， 也 可 以 阻塞 (block ) 。 如 果 它 缓冲 消息 ， 则 MPI 系统 将 会 把 消息 〈 包 括 数 据 和 信封 ) 放置 在 
它 自己 的 内 部 存储 器 里 ， 并 返回 MPI_Send 的 调用 。 

另 一 方面 ， 如 果 系 统 发 生 阻塞 ， 那 么 它 将 一 直 等 待 ， 直 到 可 以 开始 发 送 消息 ， 并 不 立即 返回 
对 MPI_Send 的 调用 。 因 此 ， 如 果 使 用 MPI_Send， 当 函数 返回 时 ， 实 际 上 并 不 知道 消息 是 和 理 已 
经 发 送出 去 。 我 们 只 知道 消息 所 用 的 存储 区 ， 即 发 送 缓冲 区 ， 可 以 被 程序 再 次 使 用 。 如 果 我 们 需 
要 知道 消息 是 否 已 经 发 送出 去 ,或 者 无 论 消 息 是 否 已 经 发 送出 去 我 们 都 让 MPI_Send 调用 后 立即 
返回 ,那么 可 以 使 用 MPI 提供 的 发 送 消息 的 替代 方法 。 我 们 将 会 在 稍 后 学 习 这 些 替代 函数 中 的 
一 个 。 

MPI_Send 的 精确 行为 是 由 MPI 实现 所 决定 的 。 但 是 ， 典 型 的 实现 方法 有 一 个 默认 的 消息 
“截止 ”大 小 (“cutoff”message size ) 。 如 果 一 条 消息 的 大 小 小 于 “截止 ”大 小 ， 它 将 被 缓冲 ; 如 
果 大 于 截止 大 小 ,那么 MPL_ Send 函数 将 被 阻塞 。 

与 MPI_Send 不 同 ，MPI_Recy 函数 总 是 阻塞 的 ， 直 到 接收 到 一 条 匹配 的 消息 。 因 此 ， 当 
MPI_Recy 函数 调用 返回 时 ， 就 知道 一 条 消息 已 经 存储 在 接收 缓冲 区 中 了 (除非 产生 了 错误 ) 。 
接收 消息 函数 同样 有 替代 函数 ， 系 统 检查 是 否 有 一 条 匹配 的 消息 并 返回 ， 而 不 管 缓冲 区 中 有 没有 
消息 (关于 使 用 非 阻塞 通信 的 细节 ， 详 见习 题 6. 22 ) 。 

MPI 要 求 消息 是 不 可 超越 的 〈nonovertaking ) 。 即 如 果 g 号 进程 发 送 了 两 条 消息 给 > 号 进程 ， 
那么 9 进程 发 送 的 第 一 条 消息 必须 在 第 二 条 消息 之 前 可 用 。 但 是 ， 如 果 消 息 是 来 自 不 同 进 程 的 ， 吨 ] 
消息 的 到 达 顺 序 是 没有 限制 的 。 即 如 果 g 号 进程 和 + 上 号 进程 都 向 r 号 进程 发 送 了 消息 ， 即 使 q 号 进 
程 在 上 号 进程 发 送 消息 之 前 就 将 自己 的 消息 发 送出 去 了 ， 也 不 要 求 9 号 进程 的 消息 在 上 号 进程 的 
消息 之 前 一 定 能 被 > 号 进程 所 访问 。 这 本 质 上 是 因为 MPI 不 能 对 网 络 的 性 能 有 强制 性 要 求 。 例 
如 ， 如 果 4 号 进程 在 火星 上 的 某 台 机 器 上 运行 ， 而 > 号 进程 和 + 号 进程 都 在 旧金山 的 同一 台 机 器 
上 运行 ， 并且 9 号 进程 只 是 在 上 号 进程 发 送 消息 之 前 的 1 纳 秒 发 送 了 消息 ， 那 么 要 求 g 号 进程 的 
消息 在 1 号 进程 之 前 到 达 ， 是 不 合理 的 。 


3. 1. 12 潜在 的 陷阱 

MPI_Recv 的 语义 会 导致 MPI 编程 中 的 一 个 潜在 陷阱 ， 如 果 一 个 进程 试图 接收 消息 ,但 没有 
相 匹 配 的 消息 ， 那 么 该 进程 将 会 被 永远 阻塞 在 那里 ， 即 进程 悬挂 。 因 此 ， 在 设计 程序 时 ， 我 们 需 
要 保证 每 条 接收 都 有 一 条 相 匹 配 的 发 送 。 可 能 更 重要 的 是 ， 编 写 代码 时 ， 要 格外 小 心 以 防止 因 调 
用 MPI_Send 和 MPI_Recy 出 现 错误 。 例 如 ， 如 果 标 签 (tag) 不 匹配 , 或 者 目标 进程 的 进程 号 
与 源 进 程 的 进程 号 不 相同 ， 那 么 接收 与 发 送 就 无 法 相 匹配 了 ， 这 会 导致 一 个 进程 悬挂 起 来 ， 或 者 
可 能 更 严重 的 ， 接 收 端 可 能 会 匹配 另 一 个 发 送 端 。 
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简单 地 说 ， 如 果 调 用 MPI_Send 发 生 了 阻塞 ， 并 且 没有 相 匹 配 的 接收 ， 那 么 发 送 进程 就 悬挂 
起 来 。 另 一 方面 ， 如 果 调 用 MPI_ Send 被 缓冲 ， 但 没有 相 匹 配 的 接收 ， 那 么 消息 将 被 丢失 。 


3.2 用 MPI 来 实现 梯形 积分 法 
编写 打印 来 自 进程 消息 的 程序 比较 简单 ， 一 般 不 会 遇 到 什么 麻烦 ， 程 序 也 会 运行 良好 。 但 


是 ,我们 不 会 只 编写 打印 消息 的 程序 。 接 下 来 是 一 个 更 为 有 用 的 程序 : 通过 编写 程序 来 实现 数值 
积分 中 的 梯形 积分 法 。 


3.2. 1 梯形 积分 法 

我 们 可 以 用 梯形 积分 法 来 估计 函数 y=j/(x) 的 图 像 中 ， 两 条 垂直 线 与 x 轴 之 间 的 区 域 大 小 ， 
见 图 3-3。 基 本 思想 是 , 将 x 轴 上 的 区 间 划 分 为 n 个 等 长 的 子 区 间 。 然 后 估计 介 于 肾 数 图 像 及 每 
个 子 区 间 内 的 梯形 区 域 的 面积 。 梯 形 的 底 边 是 x 轴 上 的 子 区 间 ， 两 条 垂直 边 是 经 过 子 区 间 端 点 的 
垂直 线 ， 第 四 条 边 是 两 条 垂直 边 与 函数 图 像 所 相交 的 两 个 交点 之 间 的 连 线 。 如 图 3-4 所 示 ， 设 子 
区 间 的 端点 为 x; 和 %,! ， 那 么 子 区 间 的 长 度 h=x,, -x;。 同样 ， 两 条 垂直 线段 的 长 度 分 别 为 f(x,) 


梯形 面积 = 之 [zx) +f(x4.1)] 





y 


a bx a bx 
a) b) 
图 3-3 ”梯形 积分 法 : a) 要 估计 的 区 域 ; b) 用 梯形 近似 的 区 域 


由 于 nn 个子 区 间 是 等 分 的 ， 因 此 如 果 两 条 垂直 线 包 围 区 域 的 边界 分 别 为 x=a 和 x=b， 那 么 
b-a 
六 = 一 一 


因此 ， 如 果 称 最 左边 的 端点 为 x。， 最 右边 的 端点 为 x,， 则 有 : 
Xo =CXi =a +h,x, =G+27 MX 1 =a+(n—1)h,x, =b 
这 片区 域 的 所 有 梯形 的 面积 和 为 
梯形 面积 和 =h[fxo)/2+f(x1) + 二 大 xl) +f(x,)/2] 
因此 ， 一 个 串 行 程序 的 伪 代 码 有 可 能 看 起 来 是 这 样 的 : 
/*# Input: a, b, n */ 
h = (b-a)/n; 
approx = (f(a) + f(b))/2.0; 
for (i = 1; i <= n-l; 1++) 
XxX-i = a + i*h; 
approx += f(x-i); 





} 
approx = hx*approx; 


h 
3. 2.2 并 行 化 梯形 积分 法 图 3-4 一 个 梯形 
正如 第 1 章 所 言 ， 编 写 并 行程 序 的 程序 员 通 常用 “并 行 化 ”来 描述 将 串 行程 序 或 算法 转换 为 
并 行程 序 的 过 程 。 
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回想 一 下 ， 可 以 用 四 个 基本 步骤 去 设计 一 个 并 行程 序 : 

1) 将 问题 的 解决 方案 划分 成 多 个 任务 。 

2) 在 任务 间 识别 出 需要 的 通信 信道 。 

3) 将 任务 聚合 成 复合 任务 。 

4) 在 核 上 分 配 复合 任务 。 

在 划分 阶段 ， 我 们 通常 试 着 识别 出 尽 可 能 多 的 任务 。 对 于 梯形 积分 法 ， 我 们 可 以 识别 出 两 种 
任务 : 一 种 是 获取 单个 矩形 区 域 的 面积 ， 另 一 种 是 计算 这 些 区 域 的 面积 和 。 然 后 利用 通信 信道 将 
每 个 第 一 种 任务 与 一 个 第 二 种 任务 相连 接 ， 见 图 3-5。 





面积 相 加 


图 3-5 梯形 积分 法 的 任务 与 通信 


那么 ， 如 何 聚合 任务 并 将 其 分 配 到 核 上 呢 ? 直 党 告诉 我 们 ， 使 用 的 梯形 越 多 ， 估 计 值 就 越 精 
确 。 也 就 是 说 : 应 该 使 用 尽 可 能 多 的 梯形 。 因 此 ， 梯 形 的 数目 将 超过 核 的 数量 ， 需 要 将 梯形 区 域 
面积 的 计算 聚合 成 组 。 实 现 这 一 目标 的 一 个 很 自然 的 方法 就 是 将 区 间 [a,，6] 分 成 comm_sz 个 
子 区 间 。 如 果 comm_sz 可 以 整除 n， 即 梯形 数目 ， 那么 我 们 可 以 简单 地 在 n/comm,_sz 个 梯形 和 
所 有 comm_sz 个 子 空间 上 应 用 梯形 积分 法 。 最 后 ， 我 们 可 以 利用 进程 中 的 某 一 个 ， 如 0 号 进程 ， 
将 这 些 梯形 面积 的 估计 值 累 加 起 来 ， 完 成 整个 计算 过 程 。 

我 们 简单 地 假设 comm_sz 能 整除 n， 则 这 个 程序 的 伪 代 码 如 下 所 示 。 


h = (b-a)/n; 
1ocal-n = n/comm.sz:; 
local.a = a + my_rank*1iocael_nx*h; 
local.b = local.a + local_n*h; . 
local.integral = Trap(local.a, 10cal_b, local.n, h):; 
if (my-rank != 0) 
Send local.integral to process 0: 
9 else /x My_rank == 0 */ 
10 total-integral = local_integral: 


人 


11 for (proc = 1; proc < comm.sz; Proc++) { 
12 Receive 10cal-integral from proc; 
13 total_integral += local_integral; 


14 } 


) 
16 if (my-rank == 0) 
17 print result; 


我 们 先 暂 时 推迟 考虑 输入 的 问题 ， 而 只 是 将 a、b 和 n 视 为 常量 。 这 样 就 会 得 到 程序 3-2 所 示 
的 MPI 程序 。Trap 函数 是 一 个 梯形 积分 法 的 串 行 实现 ， 见 程序 3-3。 

注意 ， 我 们 对 标识 符 的 选择 ， 是 为 了 区 分 局 部 变量 与 全 局 变量 。 局 部 变量 只 在 使 用 它们 的 进 
程 内 有 效 。 梯 形 积分 法 程序 中 的 例子 有 : 1ocal_a、1ocal_b 和 10cal_n。 如 果 变 量 在 所 有 进 
程 中 都 有 效 ， 那么 该 变量 就 称 为 全 局 变量 。 该 程序 中 的 例子 有 : 变量 a、b 和 n。 这 与 你 在 编程 
导论 课 上 学 到 的 用 法 不 同 。 在 编程 导论 课 上 ， 局 部 变量 指 的 是 单个 函数 的 私有 变量 ， 而 全 局 变量 
是 指 所 有 上 函数 都 可 以 访问 的 变量 。 但 是 ， 这 不 会 引起 混淆 ， 因 为 只 要 通过 上 下 文 就 可 以 理解 到 底 


Get a, b, ni [6] 
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指 的 是 哪 种 使 用 方法 。 


3.3 LO 处 理 


现 有 版 本 的 并 行 梯形 积分 法 程序 有 个 严重 的 不 足 : 它 只 能 用 1024 个 梯形 计算 [0, 3]」 区 间 
内 的 积分 。 与 简单 地 输入 三 个 新 值 相 比 ， 编 辑 和 重新 编译 代码 这 种 做 法 的 工作 量 相 当 大 。 因 此 我 
们 需要 解决 用 户 输入 的 问题 。 当 讨论 并 行程 序 输入 的 同时 ， 我 们 也 一 并 将 输出 问题 考虑 进来 。 在 
第 2 章 ， 我 们 讨论 过 这 两 个 问题 ， 所 以 如 果 你 还 记得 对 于 不 确定 性 和 输出 的 讨论 ， 那 么 你 可 以 跳 
过 本 节 ， 直 接 从 3. 3.2 开始 阅读 。 


3.3.1 输出 
在 “问候 ”程序 和 梯形 积分 法 程序 中 ,假定 0 号 进程 将 结果 写 到 标准 输出 stdout ， 即 它 对 
printf 函数 的 调用 是 我 们 所 希望 的 行为 。 虽 然 MPI 标准 没有 指定 哪些 进程 可 以 访问 哪些 VO 设备 ， 
但 是 几乎 所 有 的 MPI 实现 都 允许 MPI_COMM_WORLD 里 的 所 有 进程 都 能 访问 标准 输出 Stdout 和 标准 错 
误 输出 stderr， 所 以 ， 大 部 分 的 MPI 实现 都 允许 所 有 进程 执行 printf 和 fprintf (Stderr，…)。 
但 是 ， 大 部 分 的 MPI 实现 并 不 提供 对 这 些 LO 设备 访问 的 自动 调度 。 也 就 是 说 ， 如 果 多 个 进 
程 试图 写 标准 输出 stdout ， 那 么 这 些 进 程 的 输出 顺序 是 无 法 预测 的 ， 甚 至 会 发 生 一 个 进程 的 输 
出 被 另 一 个 进程 的 输出 打 断 的 情况 。 


程序 3-2 梯形 积分 法 MPI 程序 的 第 一 个 版 本 


1 int main(void) { 

2 int my-rank, comm-sz, n = 1024, local_n; 

3 double a= 0.0. b= 3.0, h, local.a, local_b; 

4 double local_int, total_int; 

5 int source:; 

6 

7 MPI_INit CNULL, NULL); 

8 .| MPI_Comm_rank (MPI_COMM_WORLD, &my.rank); 

9 MPI-Comm_size(MPI-COMM_WNORLD ，&comm_sz) 

10 

il n= (b-a)i/in; /* h is the same for af processes */ 
12 local.n = n/comm_sz; /wy 90 is the number of trapezoids */ 
13 

14 locala = a + my-rankx*1local_nxh; 

15 local.b = local.a + jocal_nxh; 

16 1ocal-int = Trap(locel.a, local.b, localn, h); 

17 

18 if (my-rank Il= 0) { 

19 MPI.Send(&local_int, 1, MPI_.DOUBLE, 0, 0,， 

20 MPI_COMM_WORLD); 

21 } else ! 

22 total_int = local.int; 

23 for {source = 1; Source《 comm.sz; SoOurce++) { 

24 MPI_Recv(&local_int, 1, MPI_DOUBLE, source, 0, 
25 MPI_COMM_WORLD, MPI_STATUS_IGNORE); 

26 total_int += local.int; 

27 } 

28 } 

29 

30 if (my-rank == 0) { 

31 printf("With n = %d trapezoids, our estimate\n"”, n); 
32 printf("of the integral from %f to %f = %.l5e\n", 
33 a, b, total_int): 

34 } 

35 MPI_Ffinalize(): 

36 return 0; 


37 } /* main */ 
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例如 ， 假 设 运行 一 个 MPI 程序 ， 每 个 进程 只 是 简单 地 打印 一 条 消息 ， 见 程序 34。 
在 我 们 的 集群 上 ， 如 果 用 5 个 进程 来 执行 这 一 程序 ， 通 常 它 会 产生 如 下 希望 得 到 的 输出 : 


Proc 
Proc 
Proc 


Proc 
Proc 


0 


2 
3 
4 


Nm NN 


YY YYY 


Does 
boes 
Does 


Does 
Does 


double Traptl 
double left_endpt /x* 
double right_endpt /x 
trap-count /#* 
double base-len 


} 


double estimate, x; 


int 


int i; 


estimate = 
for (i 


} 


= 1; 


estimate = 


anyone 
anyone 


have 
have 


anyone have 


anyone have 
anyone have 


a 
a 
a 
a 
a 


toothpick? 
toothpick? 
toothpick? 
toothpick? 
toothpick? 


程序 3-3 ”梯形 积分 法 MPI 程序 里 的 Trap 函数 





/#* 


in x*/, 
in */, 
in 二/ 
in */) { 


(flleftendpt) + f(right-endpt))72.0: 
i <= trap-count~l; i++) { 

x = left_endpt + i*base.len; 

estimate += f(x): 


estimate*base_len; 


return estimate, 


/* 


Trap 


*/ 





程序 3-4 每 个 进程 只 是 打印 一 条 消息 





#include <stdio.n> 
#include <mpi.h> 


int main(void) 


{ 


int my.rank, comm._sz; 


MPI_INit(NULL, 
MPI.Comm.size(MPI_COMM_WORLD, &comm._sz); 
MPI_Comm_rank tMPI_COMM_WORLD, &my_rank); 


NULL); 





printf("Proc %d of %d > Does anyone have a toothpick?\n", 


MPI.Finalize(); 


return 0; 


} /x main *#/ 


my-rank, comm._sz); 








但 是 ， 当 用 6 个 进程 运行 程序 时 ， 输 出 行 的 顺序 就 不 可 预测 了 : 


Proc 
Proc 
Proc 


proc 
Proc 
Proc 


Proc 
Proc 
Proc 
Proc 
Proc 
Proc 


of 
of 
of 


of 
of 
of 


of 
of 
of 
of 
of 
of 


mm GO 


On on 路 


AN AN YY 


VS YY 


Does 
Does 
Does 


Does 
Does 
Does 


Does 
Does 
Does 
Does 
Does 
Does 





anyone 
anyone 
anyone 


anyone 
anyone 
anyone 


anyone 
anyone 
anyone 
anyone 
anyone 
anyone 


have 
have 
have 


have 
have 
have 


have 
have 
have 
have 
have 
have 


toothpick? 
toothpick? 
toothpick? 


toothpick? 
toothpick? 
toothpick? 


toothpick? 
toothpick? 
toothpick? 
toothpick? 
toothpick? 
toothpick? 
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这 一 现象 产生 的 原因 是 MPI 进程 都 在 相互 “竞争 ”， 以 取得 对 共享 输出 设备 、 标 准 输出 std- 
out 的 访问 。 我 们 不 可 能 预测 进程 的 输出 是 以 怎样 的 顺序 排列 。 这 种 竞争 会 导致 不 确定 性 ， 即 每 
次 运行 的 实际 输出 可 能 会 变化 。 

如 果 不 希 望 进程 的 输出 以 随机 顺序 出 现 ， 那 么 我 们 就 应 该 按 自己 的 想法 去 修改 代码 。 例 如 ， 
让 除了 0 号 进程 以 外 的 其 他 进程 向 0 号 进程 发 送 它 的 输出 ， 然 后 0 号 进程 根据 进程 号 的 顺序 打印 
输出 结果 。 这 就 是 我 们 在 “问候 ”程序 中 所 做 的 。 


3.3.2 输入 

与 输出 不 同 ， 大 部 分 的 MPI 实现 只 允许 MPI_COMM_WORLD 中 的 0 号 进程 访问 标准 输入 
stdin。 这 是 有 道理 的 : 如 果 多 个 进程 都 能 访问 标准 输入 stdin， 那 么 哪个 进程 应 该 得 到 输入 数 
据 的 哪个 部 分 呢 ? 0 号 进程 应 该 得 到 第 一 个 字符 吗 ? 

为 了 编写 能 够 使 用 scanf 的 MPI 程序 ， 我 们 根据 进程 号 来 选取 转移 分 支 。0 号 进程 负责 读 取 
数据 ， 并 将 数据 发 送 给 其 他 进程 。 例 如 ， 在 梯形 积分 法 的 并 行程 序 (程序 3-5) 中 的 Get_input 
函数 ，0 号 进程 只 是 简单 地 读 取 a、b 和 的 值 ， 并 将 这 三 个 值 发 送 给 其 他 每 个 进程 。 除 了 0 号 进 
程 发 送 数据 给 其 他 进程 、 其 他 进程 只 是 接收 数据 外 ， 程 序 3-5 使 用 了 与 “问候 ”程序 相同 的 基本 
通信 结构 。 

为 了 使 用 该 函数 ， 我 们 可 以 在 主 程序 中 简单 地 插 人 对 该 函数 的 调用 。 要 注意 的 是 ， 我 们 必须 

在 初始 化 my_rank 和 comm_sz 后 ， 才 能 调用 该 水 数 :; 


MPI_Comm_rank(MPICOMM_WORLD，&my_rank); 
MPI_Comnm-size(MPpI_COMMNWORLD，&comm_sz); 


Get_-datatmy-rank，comm-sz，8a，&b，&n): 


h = (ba)yn; 


程序 3-5 ”一 个 用 于 读 取 用 户 输入 的 函数 








void Get_input( 


1 

2 int my_rank /* jn x*/, 

3 int Comm_sz /*¥ in */, 

4 double*#  a-p /* OUt */, 

5 doub1e* b_p /* DOUt #*/, 

6 intx n-p /*# Out */) | 

7 int dest; 

8 

9 if (my-rank == 0) 1 

10 printf{"Enter a, b, and n\n"); 

11 scanf{("%1f %1f %d"，a-p，b-p，n-p); 

12 for (dest = 1; dest《 Comm-sz; dest++) 1{ 

13 MPI-Send(a-p，1，MPI-D0UBLE，dest，0，MPI-COMM_WORLD) ; 
14 MPI-Sendfb-p，1、MPI-DOUBLE，dest，0，MPI-COMM_NORLD ) ; 
15 MPI_Send{n.p, 1,. MPI_INT, dest, 0, MPI_COMM_WORLD); 
i6 } 

17 i else { /* My-rank /l= 0 #/ 

18 MPI_Recv(la-p, 1, MPI_DOUBLE, 0, 0, MPI_COMM_.WORLD., 

19 MPI_-STATUS_IGNORE ) ; 

20 MPI_Recv(b_p, 1, MPI_DOUBLE, 0, 0, MPI_COMM_WORLD, 

21 MPI_STATUS-IGNORE):; 

22 MPI_Recvy(n_p, 1, MPI_INT, 0, 0, MPI_COMM_WORLD, 

23 MPI_STATUS_IGNORE) 


} 
25 } /x Get_input */ 
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3.4 集合 通信 

如 果 停 下 来 ， 想 一 想 我 们 编写 的 梯形 积分 法 程序 ， 我 们 就 会 发 现 几 件 可 以 提高 程序 性 能 的 
事 。 其 中 最 明显 的 就 是 在 每 个 进程 都 完成 了 它 那 部 分 积分 任务 之 后 的 “全 局 求 和 ” ( global sum ) 。 
想象 一 下 ， 如 果 我 们 雇用 8 名 工人 建造 一 所 房子 ， 那 么 如 果 其 中 的 7 名 工人 告诉 第 一 个 人 如 何 
干 ， 然 后 将 他 们 的 7 份 工钱 拿 走 回 家 ， 我 们 会 觉得 所 花 的 钱 非常 不 值 。 但 这 很 像 全 局 求 和 所 做 
的 : 每 个 进程 号 大 于 0 的 进程 “告知 0 号 进程 怎么 做 "， 然 后 就 自己 退出 了 。 每 个 进程 号 大 于 0 
的 进程 事实 上 只 是 说 “将 这 个 值 加 到 总 和 里 去 ”。0 号 进程 要 做 全 局 求 和 的 所 有 工作 ， 而 其 他 进 
程 几乎 什么 都 不 做 。 有 时候， 这 可 能 是 并 行程 序 可 以 选择 的 最 好 方式 ， 但 如 果 想 象 一 下 有 8 名 学 
生 ， 每 个 人 都 拥有 一 个 数值 ， 为 了 求 这 8 个 数值 的 总 和 ， 相 比 起 其 中 7 名 学 生 将 自己 的 数值 交 给 
第 一 个 学 生 ， 并 让 他 来 进行 求 和 工作 ， 我 们 可 以 想 出 一 个 更 公平 的 工作 分 配方 法 。 650 


3.4. 1 树 形 结 构 通信 

正如 我 们 在 第 1 章 中 见 到 的 那样 ， 可 以 使 用 一 棵 像 图 3-6 所 描绘 的 二 又 树 结构 。 在 图 3-6 中 ， 
一 开始 1 号 进程 、3 号 进程 、5 号 进程 、7 号 进程 将 它们 的 值 分 别 发 送 给 0 号 进程 、2 号 进程 、4 
号 进程 、6 号 进程 。 然 后 0 号 进程 、2 号 
进程 、4 号 进程 、6 号 进程 将 接收 到 的 值 
加 到 它们 自己 原 有 的 值 上 ， 整 个 过 程 重复 
两 次 : 

1) a 2 号 进程 和 6 号 进程 将 它们 的 
新 值 分 别 发 送 给 0 号 进程 和 4 号 进程 。 

b. 0 号 进程 和 4 号 进程 将 接收 到 的 值 
加 到 它们 的 新 值 上 。 

2) a 4 号 进程 将 它 最 新 的 值 发 送 给 0 
号 进程 。 

b. 0 号 进程 将 接收 到 的 值 加 到 它 最 新 
的 值 上 。 3-6 树 形 结构 全 局 求 和 

这 个 解决 方案 可 能 不 是 最 理想 的 ， 央 为 其 中 一 半 进 程 (1 号 进程 、3 号 进程 、5 号 进程 和 7 号 
进程 ) 的 工作 量 与 原 有 方案 相同 。 但 是 ， 如 果 我 们 仔细 想 想 ， 就 会 发 现 原 有 方案 需要 0 号 进程 接 
收 comm_sz -1=7 次 ,并 做 7 次 加 法 。 而 新 方案 中 0 号 进程 只 需要 3 次 接收 和 3 次 加 法 ， 并 且 其 
他 进程 所 做 的 接收 与 加 法 操作 都 不 超过 2 次 。 此 外 ， 新 方案 拥有 这 样 的 特性 ， 即 许多 工作 是 由 不 
同 进程 并 发 完成 的 。 例 如 ， 在 第 一 个 阶段 里 ,0 号 进程 、2 号 进程 、4 号 进程 、6 号 进程 的 接收 与 
加 法 操作 可 以 同时 进行 。 所 以 ， 如 果 进 程 几乎 是 同时 启动 的 ， 那 么 全 局 求 和 需要 的 总 时 间 将 是 0 
号 进程 需要 的 时 间 ， 即 3 次 接收 操作 与 3 次 加 法 操作 。 因 此 减少 了 超过 50% 的 总 时 间 。 另 外 ， 如 
果 使 用 更 多 的 进程 ， 甚 至 可 以 得 到 更 好 的 结果 。 例 如 ， 如 果 comm_sz =1024， 则 原 方案 需要 0 号 
进程 执行 1023 次 接收 及 加 法 操作 ， 而 采用 新 方案 , 0 号 进程 只 需要 10 次 接收 及 加 法 操作 (见习 
题 3.5)。 这 使 得 原 方案 的 性 能 提高 了 超过 100 倍 ! [3 

你 会 觉得 这 种 做 法 相当 好 ， 但 是 编写 树 形 结构 代码 看 上 去 需要 做 许多 工作 ， 参 见 编程 作业 
3.3。 事 实 上 ， 这 个 问题 甚至 可 能 更 加 困难 。 例 如 ， 建 立 一 个 基于 树 形 结构 的 全 局 求 和 ， 使 之 用 
于 不 同 的 “进程 配对 ”， 这 种 做 法 是 完全 可 行 的 。 例 如 ， 在 第 一 阶段 中 ， 可 以 将 0 号 进程 与 4 号 
进程 配对 ，1 号 进程 与 5 号 进程 相配 ，2 号 进程 与 6 号 进程 相配 ，3 号 进程 与 7 号 进程 相配 。 在 第 
二 阶段 ， 将 0 号 进程 与 2 号 进程 配对 ，1 号 进程 与 3 号 进程 配对 。 最 后 ,将 0 号 进程 与 1 号 进程 配 
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对 。 参 见 图 3-7。 当 然 ， 还 有 许多 其 他 可 能 的 配对 法 。 我 们 能 够 确定 哪个 方案 是 最 优 的 吗 ? 如 果 
可 以 ， 会 不 会 有 这 种 可 能 ， 即 一 种 方案 对 
于 “小 ”的 树 形 结构 是 最 优 的 ， 而 另 一 种 
方案 对 于 “大 ”的 树 形 结构 是 最 优 的 ? 更 
坏 情 况 是 : 一 种 方案 可 能 在 系统 A 上 是 最 
优 的 ， 而 另 一 种 方案 在 系统 B 上 是 最 
优 的 。 

3.4.2 MPI_Reduce 

由 于 存在 各 种 可 能 性 ， 指 望 MPI 程序 
员 都 能 编写 出 最 佳 的 全 局 求 和 函数 是 不 合 
理 的 。 所 以 ，MPI 中 包含 了 全 局 求 和 的 实 
现 ， 以 便 帮 助 程序 员 摆 脱 无 止境 的 程序 优 
化 。 这 样 ， 就 将 程序 优化 的 压力 转移 到 图 3-7 树 形 结构 全 局 求 和 的 另 一 种 方法 
MPI 实现 的 开发 人 员 身 上 ， 而 不 在 应 用 程序 的 开发 人 员 身 上 。 假 设 MPI 实现 的 开发 人 员 对 硬件 和 
系统 软件 都 应 该 有 足够 的 了 解 ， 这 样 才能 更 好 地 确定 实现 细节 。 

很 明显 ,“ 全 局 求 和 函数 ”需要 通信 。 然 而 ,与 MPI_Send 函数 和 MPI_Recy 涌 数 两 两 配对 
不 同 ， 全 局 求 和 函数 可 能 会 涉及 两 个 以 上 的 进程 。 事 实 上 ， 在 梯形 积分 法 程序 中 ， 它 涉及 MPI_ 
COMM_WORLD 中 所 有 的 进程 。 在 MPI 里 ， 涉 及 通信 子 中 所 有 进程 的 通信 应 数 称 为 集合 通信 (col- 
lective communication) 。 为 了 区 分 集合 通信 和 与 类 似 MPI_Send 和 MPI_Recv 这 样 的 函数 ，MPI_ 
Send 和 MPI_Recyv 通常 称 为 点 对 点 通信 (point-to-point communication ) 。 

实际 上 ， 全 局 求 和 函数 只 是 集合 通信 函数 类 别 中 的 一 个 特殊 例子 而 已 。 例 如 ， 我 们 可 能 并 不 
是 想 计算 分 布 在 各 个 进程 上 的 comm_sz 值 的 总 和 ， 而 是 想 知道 最 大 值 或 最 小 值 ， 或 者 总 的 乘积 ， 
或 者 其 他 许多 可 能 情况 中 的 任何 一 个 所 产生 的 结果 。MPI 对 全 局 求 和 函数 进行 概括 ， 使 这 些 可 能 
性 中 的 任意 一 个 都 能 用 单个 函数 来 实现 : 


int MPI-Reducet 





VOidx* input-data-p /kk in x*/, 
void* Output-data-p Ar Out */, 
int count /x* Tn #/, 
MPI-Datatype datatype /# 1n */, 
MPI-0p operator /*# 7m 站 /， 
int dest_process /kk in */, 
MPI_Comm Comm /kk In #*/); 


这 个 函数 的 关键 在 于 第 5 个 参数 ，operator。 它 的 类 型 为 MPI_0p， 是 一 个 像 MPI_Datatype 
和 MPI_Comnm 一 样 的 预定 义 MPI 类 型 。 这 个 类 型 有 多 个 预定 义 值 ， 见 表 3-2。 你 还 可 以 定义 自己 
的 运算 符 ， 详 见 MPI-1 标准 [39] 。 

这 里 ， 我 们 要 使 用 的 运算 符 为 MPI_SUM， 将 这 个 值 赋 给 operator 参数 后 ， 就 可 以 将 程序 
3-2 中 的 第 18 ~ 28 行 的 代码 用 单个 函数 调用 代替 : 


MPI-Reducef&local-int，R&total-int，1，MPI-DOU8BLE，MPI_SUM ，0， 
MPI-COMM_WORLD ) ; 


需要 注意 的 是 ， 如 果 count 参数 大 于 1， 那么 MPI_Reduce 函数 可 以 应 用 到 数组 上 ， 而 不 仅仅 是 
应 用 在 简单 的 标量 上 。 下 面 的 代码 可 以 用 于 一 组 N 维 向 量 的 加 法 ， 每 个 进程 上 有 一 个 向 量 : 


double local_x[N], sumfN]: 


MPI_.Reduce(1local_.x, Sum, N, MPI_DOUBLE, MPI_SUM, 0, 
MPI_COMM_WORLD): 
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表 3-2 MPI 中 预定 义 的 归 约 操作 符 










含义 运算 符 值 
求 最 大 值 MPI_LOR 

















求 最 小 值 MPI_BOR 
MPI._SUM MPI_LXOR 逻辑 异 或 
MPI_PROD MPL_BXOR 按 位 异 或 











MPI_ LAND 求 最 大 值 和 最 大 值 所 在 的 位 置 


求 最 小 值 和 最 小 值 所 在 的 位 置 








MPI_MAXLOC 
3. 4. 3 集合 通信 和 与 点 对 点 通信 

记 住 ， 集 合 通信 与 点 对 点 通信 在 多 个 方面 是 不 同 的 : 

1) 在 通信 子 中 的 所 有 进程 都 必须 调用 相同 的 集合 通信 函数 。 例 如 ， 试 图 将 一 个 进程 中 的 
MPI_Reduce 调用 与 男 一 个 进程 的 MPI_Recv 调用 相 匹配 的 程序 会 出 错 ， 此 时 程序 会 被 悬挂 或 者 
崩溃 。 

2) 每 个 进程 传递 给 MPI 集合 通信 函数 的 参数 必须 是 “ 相 容 的 "。 例 如 ， 如 果 一 个 进程 将 0 作 
为 dest_process 的 值 传递 给 函数 ， 而 另 一 个 传递 的 是 1， 那 么 对 MPI_Reduce 调用 所 产生 的 
结果 就 是 错误 的 ， 程 序 可 能 被 其 挂 起 来 或 者 崩溃 。 

3) 参数 output_data_p 只 用 在 dest_process 上 。 然 而 ， 所 有 进程 仍 需要 传递 一 个 与 
output_data_p 相对 应 的 实际 参数 ， 即 使 它 的 值 只 是 NULL。 

4) 点 对 点 通信 函数 是 通过 标签 和 通信 子 来 匹配 的 。 集 合 通信 函数 不 使 用 标签 ， 只 通过 通信 
子 和 调用 的 顺序 来 进行 匹配 。 例 如 ， 看 看 表 3-3 所 示 的 MPI_Reduce 调用 ， 假 设 每 个 进程 调用 
MPI_Reduce 函数 的 运算 符 都 是 MPI1_SUM，, 那么 目标 进程 为 0 号 进程 。 粗 略 地 看 一 下 整 张 表 ， 在 
两 次 调用 MPI_Reduce 后 ，b 的 值 是 3, 而 d 的 值 是 6。 但是， 内 存单 元 的 名 字 与 MPI_Reduce 
的 调用 匹配 无 关 ， 函 数 调 用 的 顺序 决定 了 匹配 方式 。 所 以 b 中 所 存储 的 值 将 是 1+2 +1=4，d 中 
存储 的 值 将 是 2 +1+2 =5。 


表 3-3 对 MPI_Reduce 的 多 个 调用 


1 号 进程 
ada=1liCc=2 


MPI_Rdeuce (&a,&b,... ) MPI_Rdeuce (&c,&d.... ) 
MPI_Rdeuce (&c,&d,... ) MPI_Rdeuce (&a,&b,... } 


最 后 一 个 忠告 : 我 们 也 许 会 冒 风险 使 用 同一 个 缓冲 区 同时 作为 输入 和 输出 调用 MPI_Re- 
duce。 例 如 ,我们 想 求 得 所 有 进程 里 x 的 全 局 总 和 ， 并 且 将 x 的 结果 放 在 0 号 进程 里 ， 也 许 会 
试 着 这 样 调用 : 

MPI_Reduce(&x, BX, 1, MPI-DOUBLE, MPI_SUM, 0. comm); 


但 在 MPI 里 ， 这 种 调用 方式 是 非法 的 。 它 的 结果 是 不 可 预测 的 : 它 可 能 产生 一 个 错误 结果 ， 也 可 
能 导致 程序 崩溃 ， 但 也 可 能 产生 正确 的 结果 。 它 之 所 以 是 非法 的 ， 主 要 原因 是 它 涉及 输出 参数 的 
别名 。 两 个 参数 如 果 指 向 的 是 同一 块 内 存 ， 它 们 之 间 就 存在 别名 问题 。MPI 禁止 输入 或 输出 参数 
作为 其 他 参数 的 别名 。 因 为 MPI 论坛 希望 使 Fortran 语言 与 C 语言 版 本 的 MPI 尽 可 能 一 致 ，Fortran 
语言 禁止 使 用 别名 参数 。 在 某 些 例子 中 ，MDPI 提供 了 一 种 替代 的 构造 方法 ， 可 以 有 效 地 避免 这 一 
























MPI_Rdeuce (&a,&b,... ) 
MPI_Rdeuce (&c,&d,... 
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限制 ， 见 6. 1.9 节 中 的 例子 。 


3.4.4 MPI_Allreduce 

梯形 积分 法 程序 中 ， 我 们 只 打印 结果 ， 所 以 只 用 一 个 进程 来 得 到 全 局 总 和 的 结果 是 很 自然 
的 。 然 而 ， 不 难 想象 这 样 一 个 情况 ， 即 所 有 进程 都 想得到 全 局 总 和 的 结果 ， 以 便 可 以 完成 一 个 更 
大 规模 的 计算 。 在 这 个 情况 下 ， 遇 到 的 问题 与 刚才 遇 到 的 问题 其 实 是 相同 的 。 例 如 ， 用 一 棵 树 来 
计算 全 局 总 和 ， 我 们 可 以 通过 “ 丰 倒 ” (reverse) 整 棵 树 来 发 布 全 局 总 和 ( 见 图 3-8) 。 还 有 另 一 
种 替代 方法 ， 可 以 让 进程 之 间 相 互 交 换 部 分 结果 ， 而 不 是 单 向 的 通信 。 这 种 通信 模式 称 为 蝶 形 
( 见 图 3-9) 。 使 用 哪个 通信 结构 ， 以 及 如 何 编写 代码 优化 代码 性 能 ， 都 是 程序 员 不 希望 完成 的 工 
作 。 幸 运 的 是 ，MPI 提供 了 一 个 MPI_Reduce 的 变种 ,可 以 令 通 信子 中 的 所 有 进程 都 存储 结果 : 


int MPI_Allreducel 


Voidx input_data_p /* in */, 
Void* output_-datae-p /* Out */, 
int count /* In x*/, 
MPI-Datatype datatype /* in #*/, 
MPI-0P operator /* in #/, 
MPI_Comm Comm /* In #/); 


参数 表 其 实 与 MPI_Reduce 的 是 相同 的 ， 除了 没有 dest_process 这 个 参数 ， 因 为 所 有 进程 都 
能 得 到 结果 。 





图 3-8 全 局 求 和 计算 结果 的 发 布 


3.4.5 广播 
在 梯形 积分 法 程序 中 ， 如 果 用 树 形 结构 的 通信 来 代替 0 号 进程 的 循环 接收 消息 ， 从 而 提升 全 
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局 求 和 的 性 能 ， 那 么 我 们 应 该 也 可 以 将 类 似 的 方法 用 于 输入 数据 的 发 布 。 事 实 上 ， 如 果 简 单 地 在 

树 形 全 局 求 和 里 “ 苏 倒 ”通信 ， 如 图 3-6 所 示 ， 我 们 可 以 得 到 如 图 3-10 所 示 的 树 形 结构 通信 图 ， 

并 且 能 够 将 这 个 结构 用 于 输入 数据 的 发 布 。 在 一 个 集合 通信 中 ， 如 果 属 于 一 个 进程 的 数据 被 发 送 

到 通信 子 中 的 所 有 进程 ， 这 样 的 集合 通信 就 叫做 广播 〈( broadcast) 。 你 可 能 已 经 狂 到 了 ，MPI 提供 
这 样 的 一 个 广播 函数 : 


int MPI-Bcast( 


Void* data-p /# 7Tnzout */, 
int Court /本 in 水 / ， 
MPI_Datatype datatype Ar In 水/ ， 
int source_proc /¥ in */， 
MPI_Comm COMM /本 In */): 





图 3-9 ” 蝶 形 结构 的 全 局 求 和 





图 3-10 树 形 结构 的 广播 


进程 号 为 Source_proc 的 进程 将 data_p 所 引用 的 内 存 内 容 发 送 给 了 通信 子 comm 中 的 所 
有 进程 。 程 序 3-6 说 明 如 何 修改 程序 3-5 中 的 Get_input 函数 ， 使 它 可 以 用 MPI_Bcast 沙 数 ， 
来 取代 MPI_Send 和 MPI_Recy 函数 。 

回想 在 串 行程 序 中 ， 输 入 /输出 参数 是 一 个 能 够 被 调用 函数 使 用 和 改变 的 值 。 然 而 对 MPI_ 
Bcast 函数 ，data_p 参数 在 进程 号 为 Source_proc 的 进程 中 是 一 个 输入 参数 ， 在 其 他 进程 中 
是 一 个 输出 参数 。 因 此 ， 当 集合 通信 函数 中 的 某 个 参数 被 标记 为 输入 /输出 (in/out) 时 ， 意 味 着 
可 能 在 某 些 进程 中 它 是 输入 参数 ， 而 在 其 他 进程 中 是 一 个 输出 参数 。 
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程序 36 ”一 个 使 用 MPI_Bcast 的 Get_input 函数 版 本 








1 void Get.inputt( 
2 int my-rank /x in */, 
3 int Comm_sz  /* TD */, 
4 double* a-_p /* OUt #*/, 
5 doublex b_p /¥ OUt */, 
6 int* np A/# Out */){ 
7 
8 if (my-rank == 0){ 
9 printf("Enter a, b, and n n"); 
10 SCanf("%1f %If %d", ap, bp, np); 
ll | 
12 MPI_Bcast(ap, 1, MPI_DOUBLE, 0, MPI_COMM_WORLD); 
13 MPI_Bcast({b_.p, 1. MPI_DOUBLE, 0, MPI.COMM_WORLD); 
14 MPi_Bcast(np, 1, MPI_INT, 0, MPI_COMM_WORLD}:; 
lI5 } /x* Get_input */ 
3. 4.6 数据 分 发 


如 果 我 们 想 编写 一 个 程序 ， 用 于 计算 向 量 和 : 
THY = x0,K no 1) + Yo, Ys Ya) 
= (x0 + Yo,X) ty Ka + YL1) 
= (20,21 .2,1) 
二 和 


如 果 用 double 类 型 的 数组 来 表示 向 量 ， 可 以 用 串 行 加 法 来 计算 向 量 求 和 ， 代 码 如 程序 3-7 所 示 。 
程序 3-7 ”向 量 求 和 的 串 行 实现 








void Vector.sum(double x[]，double y[], double z[]，int n) { 


1 

2 int ji 

3 

4 for (i = 0; i < n; i++) 
5 z[i] = x[i] + y[i]: 
6 }】 /x* Vector_sum 让/ 


如 何 用 MPI 实现 这 个 程序 呢 ? 计算 工作 由 向 量 的 各 个 分 量 分 别 求 和 组 成 ， 所 以 我 们 可 能 只 是 

痢 定 各 个 任务 求 和 的 对 应 分 量 。 这 样 ， 各 个 任务 间 没 有 通信 ， 向 量 的 并 行 加 法 问题 就 归结 为 聚合 

任务 以 及 将 它们 分 配 到 核 上 。 如 果 分 量 的 个 数 为 上 ， 并 且 我 们 有 comm_sz 个 核 或 者 进程 ， 那 么 可 

以 简单 地 将 连续 10cal1_n 个 向 量 分 量 所 构成 的 块 ， 分 配 到 每 个 进程 中 。 表 3-4 的 左 4 列 显示 了 当 
n=12 且 comm_sz =3 时 的 例子 。 这 种 做 法 通常 称 为 向 量 的 块 划分 。 

向 量 块 划分 的 另 一 个 方法 是 循环 划分 。 在 循环 划分 中 ， 我 们 用 轮转 的 方式 去 分 配 向 量 分 

出 量 。 表 3-4 的 中 间 4 列 显示 了 当 n=12 且 comm_sz =3 时 的 例子 。0 号 进程 得 到 了 向 量 的 0 号 

09| 分 量 ，1 号 进程 得 到 了 1 号 分 量 ，2 号 进程 得 到 了 2 号 分 量 ，0 号 进程 又 得 到 了 3 号 分 量 ， 以 此 

类 推 。 


表 3-4 在 3 个 进程 中 ， 对 有 12 个 分 量 的 向 量 的 不 同 划分 方式 





块 - 畦 环 划 分 块 大 小 =2 
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第 三 种 划分 方法 叫 块 -循环 划分 。 基 本 思想 是 ， 用 一 个 循环 来 分 发 向 量 分 量 所 构成 的 块 ， 而 
不 是 分 发 单个 向 量 分 量 。 所 以 首先 要 决定 块 的 大 小 。 如 果 comm_sz =3, n=12， 并且 块 大 小 b= 
2, 块 -循环 划分 就 如 表 3-4 右边 的 4 列 所 显示 的 那样 。 

一 且 决 定 如 何 划分 向 量 ， 就 能 很 容易 地 编写 向 量 的 并 行 加 法 函数 : 每 个 进程 只 要 简单 地 将 它 
所 分 配 到 的 向 量 分 量 加 起 来 。 而 且 ， 无论 使 用 哪 种 划分 方法 ， 每 个 进程 都 将 有 1ocal_n 个 向 量 
分 量 , 为 了 节省 存储 空间 ， 在 每 个 进程 上 用 一 个 只 有 10cal_n 个 元 素 的 数组 存储 这 些 分 量 。 因 
此 ， 每 个 进程 将 运行 程序 3-8 所 显示 的 函数 。 虽 然 为 了 强调 函数 只 对 进程 所 分 配 到 的 部 分 向 量 进 
行 操作 ， 函 数 的 名 字 有 所 改变 ,但 这 个 函数 本 质 上 与 原先 串 行 函数 的 功能 是 一 样 的 。 


程序 3-8 向量 求 和 的 并 行 实现 








1 void Paraliel.vector sum( 

2 double local_x[] /x* in */, 

3 doubie 10cal-y[] /x* in x*/, 

4 double local_z[] /x Out */, 

5 int local_n Ar fn #/) { 
6 int local_i; 
7 
8 
9 
0 


for (local.i = 0; local.i «< local.n; local_i++) 
1ocal-z[iocal-i] = local_x[1local.i] + local-y[local-i] 


1 } Ar Parallei_vector_sum */ 





3.4.7 散射 

现在 假设 我 们 想 测试 向 量 加 法 函数 。 先 读 取向 量 的 维度 ， 然 后 读 取向 量 x 和 向 量 y 是 很 方便 0 
的 。 我 们 已 知 如 何 读 取向 量 的 维度 : 0 号 进程 提示 用 户 ， 读 取 输 入 值 ， 然 后 将 值 广播 给 其 他 进程 。 
我 们 也 可 以 用 类 似 的 方法 读 取向 量 ; 0 号 进程 读 信 向量， 然后 将 它们 广播 给 其 他 进程 。 但 这 种 方 
法 很 浪费 。 如 果 有 10 个 进程 ， 向 量 有 1 万 个 分 量 ， 那 么 每 个 进程 都 需要 为 1 万 个 分 量 的 向 量 分 配 
存储 空间 ， 但 每 个 进程 只 在 含有 1000 个 分 量 的 子 向 量 上 进行 操作 。 例 如 ， 假 设 我 们 使 用 块 划分 
法 ， 那 么 如 果 0 号 进程 只 是 将 1000 ~ 1999 号 分 量 发 送 给 1 号 进程 ， 将 2000 ~ 2999 号 分 量 分 配给 2 
号 进程 ， 以 此 类 推 。 用 这 种 方法 ，1 ~ 9 号 进程 将 只 需要 为 它们 实际 使 用 的 向 量 分 量 分 配 存 储 
空间 。 

因此 ， 可 以 试 着 编写 这 样 一 个 函数 ，0 号 进程 读 人 整个 向 量 ， 但 只 将 分 量 发 送 给 需要 分 量 的 
其 他 进程 。MPI 提供 了 这 样 一 个 函数 : 


int MPI_Scattert 


void* Send-buf-p /* ir */, 
int Send_count /* in */, 
MPI-Datatype sendtype /¥ in #*/, 
void* recy-buf-p /# Out */, 
int recv_count /x in x*/, 
MPI.Datatype recv type /x* in */, 
int SrC-proc Ar in */, 
MPI.Comm comm A# in #*/); 


如 果 通 信子 comm 包含 comm_sz 个 进程 ， 那 么 MPI_Scatter 函数 会 将 sSend_buf_p 所 引用 的 数 
据 分 成 comm_sz 份 ， 第 一 份 给 0 号 进程 ， 第 二 份 给 1 号 进程 ， 第 三 份 给 2 号 进程 ， 以 此 类 推 。 例 
如 ， 假 如 我 们 使 用 块 划分 法 ， 并 且 0 号 进程 已 经 将 一 个 有 mm 个 分 量 的 向 量 整个 读 人 send_buf_p 
中 ， 则 0 号 进程 将 得 到 第 一 组 1ocal_n =n/comm_sz 个 分 有 量 ，1 号 进程 将 得 到 下 一 组 10cal_n 
个 分 量 ， 以 此 类 推 。 每 个 进程 应 该 将 它 本 地 的 向 量 作为 recv_buf_p 参数 的 值 , 将 10cal_n 作 
为 recv_count 参数 的 值 。send_type 和 recv_type 参数 的 值 都 应 该 是 MPI_DOUBLE,， src_ 
proc 参数 的 值 应 该 是 0。 令 人 惊讶 的 是 : send_count 参数 的 值 也 应 该 是 10ca1_n， 因 为 send 
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_count 参数 表示 的 是 发 送 到 每 个 进程 的 数据 量 ， 而 不 是 send_buf_p 所 引用 的 内 存 的 数据 量 。 
如 果 使 用 块 划分 法 和 MPI_Scatter 函数 ， 我 们 可 以 如 程序 3-9 所 示 , 用 Read_vector 函数 来 
读 人 向 量 。 

需要 注意 的 是 ，MPI_Scatter 函数 将 Send_count 个 对 象 所 组 成 的 第 一 个 块 发 送 给 了 0 号 
进程 ， 将 下 一 个 由 send_count 个 对 象 所 组 成 的 块 发 送 给 了 1 号 进程 ， 以 此 类 推 。 所 以 ， 这 种 读 
取 和 分 发 输入 向 量 的 方法 将 只 适用 于 块 划分 法 ， 并 且 向 量 的 分 量 个 数 可 以 整除 comm_sz 的 情 
况 。 我 们 将 在 习题 18 中 讨论 处 理 循环 划分 以 及 块 - 循环 划分 法 的 部 分 解决 方案 ， 而 完整 的 解决 

方案 参见 【23 ] 。 我 们 还 将 在 习题 3. 13 中 讨论 如 何 处 理 n 不 能 够 整除 comm_sz 的 情况 。 


程序 3-9 ”一 个 读 取 并 分 发 向 量 的 函数 








1 void Read.vectortl 

2 double local_al] /x OU x/, 

3 int local-_n A Tn o/s 

本 int n A nn /， 

5 char vec-name[]j /x in */, 

6 int my-rank /机 了 站 水/ 

7 MPI-Comm comm sx in x*/) { 

8 

9 doublex*x a = NULL 

10 int i: 

11 

12 if (my-rank == 0) 1 

13 a = malloc(n*sizeof (double)): 

14 printf( "Enter the vector %s\n", vec_name); 
i5 for (i = 0; i < n; 1i+r) 

16 scanf("%]1f", &a[Lil); 

17 MPpI_Scatter(a, local-n, MPI.DOUBLE, locala, 10caln, 
18 MPI-DOUBLE，0，comm) ; 

19 free(a): 

20 } else 1 

21 MPpl_Scatter{ta, local_n, MPI_.DOUBLE, 10cal.a, localn, 
22 MPI1_DOUBLE, 0, comm); 


} 
24 } /+ Read_vector */ 


3.4.8 聚集 

除非 看 见 向 量 加 法 的 结果 ， 否 则 测试 程序 是 无 用 的 。 所 以 我 们 需要 编写 一 个 可 以 打印 分 布 式 
向 量 的 函数 。 这 个 函数 将 向 量 的 所 有 分 量 都 收集 到 0 号 进程 上 ， 然 后 由 0 号 进程 将 所 有 分 量 都 打 
印 出 来 。 这 个 函数 中 的 通信 由 MPI_Gather 来 执行 ， 


int MPI_Gathert 


voidy send-buf.p /* in */, 
int send_count /x in */, 
MPI-Datatype send_type /x 1m #*/, 
VoOid* recybuf_p /x Out */, 
int recv-count /x* in */, 
MPI-Datatype recv-type /* in w*/, 
int dest_proc /* in */, 
MPI_Comm Comm /* in #*/) 


在 0 号 进程 中 ,由 send_buf_p 所 引用 的 内 存 区 的 数据 存储 在 recv_buf_p 的 第 一 个 块 中 , 在 1 
号 进程 中 , 由 send_buf_p 所 引用 的 内 存 区 的 数据 存储 在 recv_buf_p 的 第 二 个 块 里 ， 以 此 类 
推 。 所 以 ， 如 果 使 用 块 划分 法 ， 就 可 以 如 同 程序 3-10 所 示 ， 实 现 分 布 式 向 量 打印 函数 。 注 意 ， 
recv_count 指 的 是 每 个 进程 接收 到 的 数据 量 ， 而 不 是 所 有 接收 到 的 数据 量 的 总 和 。 
使 用 MPI_Gather 函数 的 限制 与 使 用 MPI_Scatter 函数 的 限制 是 类 似 的 ， 只 有 在 使 用 块 划 
分 法 ， 并且 每 个 块 的 大 小 相同 的 情况 下 ， 打 印 函 数 才 能 正确 运行 。 
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程序 3-10 ”一 个 打印 分 布 式 向 量 的 函数 
1 void Print_vectort 
2 double local-b[] /*# in */, 
3 int 1ocal-n /*¥ InN */, 
4 int n /* in */, 
5 char title[l] /*# in */, 
6 int my-rank /* in x*/, 
7 MPI-Comm comm /x in */) [ 
8 
9 double* b = NULL; 
10 int ji; 
ll 
12 if (my-rank == 0) { 
13 b= malloc(n*sizeof (double)); 
14 MPI-oather(1ocal-b，1ocal-n，MPI-DOUBLE，b，1ocal-n， 
15 MPI-DOUBLE，0，comm); 
16 printf("%s\n", title); 
17 for (i = 0; i < ni i++) 
18 printf("%f ". b[il):; 
19 printf("\n"):; 
20 free(lb); 
21 } else { 
22 MPI_Gather(local-.b, local.n, MPI_DOUBLE, b, local_n, 
23 MPI_DOUBLE, 0, comm); 
24 】 
25 } /rr Print.vector */ 





3. 4.9 ”全 局 聚集 


最 后 一 个 例子 ， 我 们 来 看 看 如 何 编写 一 个 MPI 程序 ， 完 成 矩阵 和 向 量 的 相 乘 。 如 果 4 = 


(gy) 是 一 个 m xn 的 矩阵 ,x 是 一 个 具有 个 分 量 的 向 量 ， 那 么 


量 。 我 们 可 以 用 4 的 第 i 行 与 x 的 点 积 来 求 取 y 的 第 i 个 分 量 : 


yi 二 QioXo tanX) 十 QipMX2 十 十 Qin -1 和 


见 图 3-11。 
因此 ， 可 以 为 串 行 矩 阵 乘法 编写 如 下 的 伪 代 码 。 


/*# For each row of A */ 
for (i = 0; i < m; i++) { 
/* form dot product of ith row with x */ 
yl = 0 .0 
for (J =0s j < ny j++) 
yfi] += ACLiICjI*x[j]; 








y=Ax 就 是 一 个 有 m 个 分 量 的 向 


| 
































ao0 _40l Py | yo 

al0 all dl.n—l {wo | 划 
二 省 , 
: | | | 

pe | [ | 一 | i i TOE EO Te 
ab | an | | in-1 : | | 天 =ai0xo 十 Qi1 十 … 十 Gin-ixn-1 
-= 志 | 人 _ > | nl a 
Qn—1.0 | dm-—il.l Umn—l.n—l 了 7 一 1 
图 3-11 矩阵 -向量 乘法 


事实 上 ， 这 可 以 用 C 语言 来 编写 。 但 C 程序 在 处 理 二 维 数组 时 有 一 些 特别 之 处 (见习 题 
3. 14) ， 所 以 C 语言 的 程序 员 常 常用 一 维 数组 来 “模拟 ”二 维 数组 。 最 常见 的 做 法 是 将 一 行内 容 


存储 在 男 一 行 后 面 。 例 如 ， 二 维 数组 ， 
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作为 一 维 数组 会 这 样 存储 : 
0 1 2 


3 


| 


0 1 2 3 
4 5 6 7 
8 9 10 11 


4 5 6 7 8 9 10 11 


这 个 例子 中 ， 如 果 我 们 从 0 开始 对 行 和 列 进行 计数 ， 那 么 存储 在 二 维 数组 中 的 第 2 行 第 1 列 的 元 
素 ( 即 9)， 它 在 一 维 数组 中 的 位 置 为 2x4 +1 =9。 更 为 一 般 的 情况 是 ， 如 果 数 组 有 列 ， 则 当 
使 用 这 种 数组 结构 时 ， 存 储 在 第 ; 行 第 j 列 的 元 素 在 一 维 数组 中 的 位 置 就 为 ;xm +j。 使 用 这 种 一 
维 数组 结构 ， 可 以 得 到 程序 3-11 中 所 示 的 C 语言 函数 。 








1 void Mat_vect.multt 

2 double A[l] /x* 
3 double x[] /* 
4 double y[] /* 
5 int Tn 水 
6 int n /Ak 
7 int i, j: 

8 

9 for (i = 0; i < m; 
i0 y[Li] = 0.0; 


程序 3-11 抵 阵 - 向量 的 串 行 乘 法 


in 水 /， 
in 水 /， 
Out */, 
in 本 7 
in wx/} 


itt) 1 


1 for (j= 0; j < n; j++) 
12 y[i] += ALi#nt+jl#*xLij]; 


13 } 


14 } Ag Mat_vect_mult 本/ 


{ 





如 何 并 行 化 该 程序 ? 一 个 单独 的 任务 可 以 是 4 的 一 个 元 素 与 x 的 一 个 分 量 相 乘 ， 并 且 将 这 个 
乘积 加 到 y 的 一 个 分 量 上 去 。 也 就 是 说 ， 下 列 语句 的 每 一 次 执行 是 一 个 任务 : 


y[i] += A[i*xn+j]sxbj]; 


所 以 ， 如 果 将 y[ i 分 配给 g 号 进程 ,将 A 的 第 i 行 也 分 配给 g 号 进程 会 很 方便 ， 也 就 是 说 ， 对 A 
进行 行 划分 。 我 们 可 以 用 块 划分 法 、 循 环 划分 法 或 块 -循环 划分 法 来 对 行进 行 划分 。 在 MPI 中 ， 
使 用 块 划分 法 是 最 简单 的 ， 所 以 这 里 对 A 的 行进 行 块 划分 ， 并且 与 通常 一 样 ， 假 设 comm_sz 可 


以 整除 行 数 m。 


对 A 进行 行 划分 可 以 使 y[ i ] 的 计算 包含 所 需要 的 A 中 的 元 素 ， 所 以 对 y 也 应 该 采用 块 划分 。 
即 ， 如 果 A 的 第 i 行 分 配给 了 9 号 进程 ，y 的 第 i 个 分 量 也 应 该 分 配给 g 号 进程 。 
现在 ，y[ i 的 计算 包含 了 A 的 第 i 行 中 所 有 的 元 素 ， 以 及 x 的 所 有 分 量 ， 我 们 可 以 简单 地 将 
所 有 * 的 分 量 分 发 给 每 个 进程 ， 来 使 通信 量 最 小 化 。 然 而 ， 在 实际 应 用 中 ， 特 别 是 矩阵 为 方 阵 
时 ， 使 用 矩阵 - 向 量 乘 法 函数 的 程序 通常 要 执行 多 次 乘法 操作 ， 并 且 从 一 次 乘法 操作 得 到 的 向 量 
7 的 输出 结果 通常 会 是 下 一 次 迭代 中 向 量 x 的 输入 。 因 此 ， 实 际 上 ， 通 常 假设 对 x 的 划分 与 对 y 


的 划分 方法 是 相同 的 。 


所 以 ， 如 果 x 有 一 个 块 划分 ， 我 们 该 如 何 安排 信和 在 9 下 开征 前 就 合生 个 进程 都 能 访 站 


x 中 的 所 有 分 量 呢 ? 


for (j = 0; j < n; j++) 


y[i] += A[ixntj J*x[j]; 


使 用 已 经 熟悉 的 集合 通信 ， 我 们 可 以 在 执行 一 次 MPI_Gather 调用 后 ， 执 行 一 次 MPI_8Bcast 调 
用 。 在 所 有 可 能 的 情况 下 ， 这 会 涉及 两 个 树 形 结构 的 通信 ， 用 蝶 形 通信 结构 可 能 会 取得 更 好 的 效 
果 。 所 以 ，MPI 提供 了 这 样 的 一 个 单独 的 函数 : 
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int MPI-A11gather( 


void* Send-buf-p /x in */, 

int send_count /x* in #*/, 
MPI-Datatype send.type As In */, 
Voidx recv_buf_p /* OUt */, 
int recy.count /x# in #*/, 
MPI_Datatype recv.type /# Tn */, 
MPI_Comm Comm Ax in */) 


这 个 函数 将 每 个 进程 的 Send_buf_p 内 容 串 联 起 来 ， 存 储 到 每 个 进程 的 recv_buf_p 参数 中 。 
通常 ，recv_count 指 每 个 进程 接收 的 数据 量 。 所 以 大 部 分 情况 下 ，recv_count 的 值 与 send_ [5 
count 的 值 相同 。 
现在 ， 我 们 就 能 够 像 程序 3-12 所 示 的 那样 实现 矩阵 - 向 量 并 行 乘法 。 如 果 这 个 函数 被 多 次 调 
用 ,可 以 将 x 作为 一 个 附加 的 参数 传递 给 调用 函数 ， 这 样 能 进一步 提高 性 能 。 
程序 3-12 ”MPI 和 矩阵 -~ 向 量 乘 法 函数 


void Mat-vect-mult( 


1 

2 double local _A[] /x in */, 

3 double 10cal-x[] /A* in */, 

4 double 1ocal-y[] /* DOUt */, 

5 int Tocal_m /*¥ TN x*/, 

6 int n /A* Tin */, 

7 int local_n /*# in #*/, 

8 MPI-Comm comm /x in */) | 

9 doublex* x: 

10 int local_i, j; 

ll int local_ok = 1; 

12 

13 x = malloc(n*sizeoftdouble)): 

14 MPI_Al1gather(local.x, local_n, MPI_DOUBLE, 
15 x, Tocal_n, MPI_DOUBLE, comm); 

16 

17 for (local.i = 0; local.i < local.m; 1ocal-i++) { 
18 1oca1l-y[1ocal-i] = 0.0; 

19 for (j= 0; j《mn; j++) 

20 1ocal-y[1ocal-i] += local_A[1ocal_i#n+j ]*x[Lj]: 
21 ] 

22 free(X); 


23 ] /* Mat_vect_muilt 二/ 





3.5 MPI 的 派生 数据 类 型 


在 几乎 所 有 的 分 布 式 内 存 系统 中 ,通信 比 本 地 计算 开销 大 很 多 。 例 如 ， 从 一 个 节点 发 送 一 个 
double 类 型 的 数据 到 另 一 个 节点 ， 耗 费 的 时 间 比 存储 在 节点 本 地 内 存 里 的 两 个 double 类 型 数据 
相 加 所 耗费 的 时 间 长 很 多 。 而 且 ， 用 多 条 消息 发 送 一 定数 量 的 数据 ， 明 显 比 只 用 一 条 消息 发 送 等 
量 数据 耗 时 。 例 如 ， 我 们 可 以 预料 到 ， 下 面 的 这 对 for 循环 比 单个 的 发 送 /接收 对 要 慢 得 多 : 


double x[1000]; [ug 


if (my-rank == 0) 
for (i = 0; i < 1000; i++) 
MPI.Send(&x[i], 1, MPI.DOUBLE, 1, 0, comm); 
else /x* my-rank == 1 */ 
for (i = 0; i < 1000; i++) 
MPI.Recv(&x[i]}, 1, MPI_DOUBLE., 0, 0, comm, &status):; 


if (my-rank == 0) 
MPI_Send{x, 1000, MPI.DOUBLE, 1, 0, comm):; 
else /x* My-rank == 了 */ 
MPI_Recv(x, 1000, MPI_DOUBLE, 0, 0, comm, &status); 
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实际 上 ， 在 某 个 系统 里 ， 发 送 和 接收 循环 花费 将 近 50 倍 的 时 间 。 在 另 一 个 系统 里 ， 循 环 代 
码 的 执行 花费 超过 100 倍 的 时 间 。 因 此 ， 如 果 减 少 发送 的 消息 数量 ， 就 能 够 提高 程序 的 性 能 。 

MPI 提供 了 三 个 基本 手段 来 整合 可 能 需要 多 条 消息 的 数据 : 不 同 通信 函数 中 的 count 参数 、 
派生 数据 类 型 ， 以 及 MPI_Pack Nnpack 函数 。 我 们 已 经 介绍 过 count 参数 ， 它 可 以 用 于 将 连 
续 的 数组 元 素 集合 起 来 组 成 一 条 单独 的 消息 。 本 节 我 们 将 讨论 创建 派生 数据 类 型 的 方法 。 在 习题 
中 ， 我 们 将 看 到 创建 派生 数据 类 型 的 其 他 方法 以 及 使 用 MPI_Pack npack 函数 的 方法 。 

在 MPI 中， 通过 同时 存储 数据 项 的 类 型 以 及 它们 在 内 存 中 的 相对 位 置 ， 派生 数据 类 型 可 以 用 
于 表示 内 存 中 数据 项 的 任意 集合 。 其 主要 思想 是 : 如 果 发 送 数据 的 函数 知道 数据 项 的 类 型 以 及 在 
内 存 中 数据 项 集合 的 相对 位 置 ， 就 可 以 在 数据 项 被 发 送出 去 之 前 在 内 存 中 将 数据 项 雌 集 起 来 。 类 
似 地 ， 接 收 数据 的 函数 可 以 在 数据 项 被 接收 后 将 数据 项 分 发 到 它们 在 内 存 中 正确 的 目标 地 址 上 。 
例如 ,在 梯形 积分 法 程序 中 ， 需 要 调用 MPI_Bcast 函数 三 次 : 一 次 广播 左 端点 a、 一 次 广播 右 
端点 2、 一 次 广播 梯形 的 个 数 。 另 一 种 替代 方法 是 ; 建立 一 个 单独 的 派生 数据 类 型 ， 该 数据 类 
型 由 两 个 double 类 型 数据 和 一 个 int 类 型 数据 组 成 。 这 样 ， 只 需要 调用 MPI_Bcast 一 次 。 在 0 
号 进程 中 ,a、b 和 在 一 次 函数 调用 中 被 发 送出 去 ; 而 在 其 他 进程 中 ， 这 些 值 将 在 函数 调用 中 被 
接收 。 


正式 地 ， 一 个 派生 数据 类 型 是 由 一 系列 的 MPI 基本 数据 类 型 和 玉生 地 
每 个 数据 类 型 的 偏 移 所 组 成 的 。 在 梯形 积分 法 的 例子 中 ， 假 设 在 0 号 4 
进程 里 变量 a、5 和 在 内 存 中 的 位 置 为 如 下 的 地 址 : 了 


那么 下 面 的 派生 数据 类 型 就 可 以 表示 这 些 数据 项 ; 


{(MPI_DOUBLE., 0), (MPI_DOUBLE, 16), (MPI_INT, 24)}. 


每 一 对 数据 项 的 第 一 个 元 素 表明 数据 类 型 ， 第 二 个 元 素 是 该 数据 项 相对 于 起 始 位 置 的 偏 移 。 
假设 派生 类 型 从 a 开始 ， 则 a 的 偏 移 为 0， 其 他 元 素 的 偏 移 从 a 的 起 始 位 置 开始 算 ， 偏 移 量 以 字 
节 为 单位 。 数 据 项 b 距离 a 的 偏 移 是 40 -24 =16 字 节 ， 数 据 项 c 距离 a 的 偏 移 是 n =48 -24 =24 
字 节 。 

我 们 可 以 用 MPI1_Type_create_struct 函数 创建 由 不 同 基 本 数据 类 型 的 元 素 所 组 成 的 派生 
数据 类 型 


int MPI-Type-create-struct( 
int count /¥ In */, 
int array-of-blocklengths[] A/# ih 水 
MPI_Aint array-of displacements[] /x* in  */, 
MPI_Datatype array-of-types[] /# in #/， 
MPI_Datatype* new-type-p /*¥ OUt */):; 


参数 count 指 的 是 数据 类 型 中 元 素 的 个 数 ， 所 以 在 我 们 的 这 个 例子 中 ， 它 应 该 为 3。 每 个 数组 参 
数 都 有 count 个 元 素 。 第 一 个 数组 ，array_of_blocklengths 允许 单独 的 数据 项 可 能 是 一 个 
数组 或 者 子 数组 。 例 如 ， 如 果 第 一 个 元 素 是 一 个 含 5 个 元 素 的 数组 ,那么 有 : 


array-of_blocklengths[0] = 5; 


但 在 我 们 的 例子 中 ,没有 元 素 是 数组 ， 所 以 可 以 简单 地 定义 : 


int array-of-blocklengths[3] = {1, 1, 1}: 


MPI_Type_create_struct 的 第 三 个 参数 array_of_displacements 指定 了 距离 消息 起 始 位 
置 的 偏 移 量 ， 单 位 为 字 节 。 所 以 有 : 


array-of_displacements[] = {0, 16, 24}: 
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为 了 找到 这 些 值 ， 可 以 使 用 MPI_6et_address 函数 : 
int MPI_Get-address( 


void* locationp /x# in #*/, 
MPI_Aint* address-p /kk Out ¥/); 


它 返 回 的 是 1ocation_p 所 指向 的 内 存单 元 的 地 址 。 这 个 特殊 类 型 的 MPI_Aint 是 整数 型 ， 它 
的 长 度 足以 表示 系统 地 址 。 因 此 ， 为 了 取得 array_of_displacements 里 的 各 个 值 ， 我 们 可 以 
用 下 面 的 代码 : 


MPI_Aint a-addr，b-addr，n-addr; 


MPI-Get-address(&a，&a-addr); 

array_of displacements{0] = 0; 

MPpI_Get_address(&b, &b.addr); 

array-of-displacements[1]] = baddr 一 5-addr: 

MPIGet_address(&n, &n.addr); 

array.of displacements{2] = n-addr — a.addr: [Li8] 


array_of_datatypes 存储 的 是 元 素 的 MPI 数据 类 型 ， 我 们 可 以 定义 : 


MPI-Datatype array-of_types[3] = {MPI_DOUBLE, MPI_DOUBLE. MPI_INT}: 


在 这 些 初始 化 工作 完成 之 后 ， 就 可 以 通过 函数 调用 建立 新 的 数据 类 型 ; 
MPI-Datatype input-mpi ti 


MPl_Type_create_struct(3. array-of.blocklengths, 
array-ef-displacements，array-of-types ， 
&input_mpi_t); 


在 使 用 通信 函数 中 的 input_mpi_t 之 前 ， 我 们 必须 先 用 一 个 函数 调用 去 指定 它 : 


int MPI_Type_commit(MPI_Datatype* mew-mpi-t-p /A# in/out */); 


它 允 许 MPI 实现 为 了 在 通信 函数 内 使 用 这 一 数据 类 型 ， 优 化 数据 类 型 的 内 部 表示 。 
现在 ， 为 了 使 用 new_ mpi_ tt 这 个 新 的 数据 类 型 ， 需 要 在 每 个 进程 上 调用 MPI_Bcast: 


MPI-Bcast(&a，1，input-mpit，0，comm): 


所 以 , 我 们 可 以 像 使 用 MPI 的 基本 数据 类 型 一 样 去 使 用 input_mpi_t 类 型 。 
在 构造 新 数据 类 型 的 过 程 中 ，MPI 实现 可 能 要 在 内 部 分 配额 外 的 存储 空间 。 因 此 ， 当 我 们 使 
用 新 的 数据 类 型 时 ， 可 以 用 一 个 函数 调用 去 释放 额外 的 存储 空间 : 


int MPI_Type_free(MPI_Datatype* Old_mpi_t.p /x in/out */); 


这 里 ， 我 们 采用 上 述 步 又 定义 了 可 以 被 Get_input 函数 调用 的 Bui1d_mpi_type 函数 。 这 
一 新 的 函数 以 及 修改 过 的 Get_input 函数 见 程序 3-13 。 


3.6 MPI 程序 的 性 能 评估 


接 下 来 ,我 们 分 析 和 矩阵 - 向 量 乘法 程序 的 性 能 。 在 编写 程序 时 ， 尽 可 能 使 程序 并 行 化 ， 因 为 
我 们 希望 解决 相同 问题 时 ， 并 行程 序 比 串 行 程序 运行 得 更 快 。 那 么 该 如 何 证 明 这 一 点 呢 ? 我 们 在 
2.6 节 中 已 经 讨论 了 这 个 问题 ， 所 以 我 们 先 回顾 一 些 在 那里 学 过 的 知识 。 


3.6.1 计时 

通常 ， 我 们 不 会 对 程序 从 开始 运行 到 结束 运行 所 耗费 的 时 间 感 兴趣 。 例 如 ， 在 矩阵 - 向 量 乘 
法 中 ,我 们 一 般 不 会 对 输入 矩阵 和 输出 乘积 结果 所 花费 的 时 间 感 兴趣 ， 而 只 对 实际 的 乘法 运算 所 [加 
花费 的 时 间 感 兴趣 。 所 以 需要 修改 源 代 码 ， 加 入 函数 调用 ， 统 计 从 乘法 运算 开始 到 结束 所 经 过 的 
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时 间 。MPI 提供 了 这 样 的 一 个 函数 ，MPI_Wtime， 它 返回 从 过 去 某 一 时 刻 开 始 所 经 过 的 秒 数 : 


double MPI_Wtijime(void)， 


程序 3-13 ”使 用 派生 数据 类 型 的 Get_input 函数 
void Build-mpi-typet 


doublex a-p /* in #*/, 
doublex b_p jy in #*/, 
int* n-p /k in #*/, 
MPI_Datatype* input_mpi_t.p Ar out */) { 


int array-of-blocklengths[3] = {1, 1, 1}; 

MPI-Datatype array-of-types[3] = {MPI_DOUBLE, MPI.DOUBLE, MPI_INT}:; 
MPI-Aint a-addr, baddr, n_addr; 

MPI_Aint array-of-displ1acements[3] = {0}: 


MPI_Get_address(a.p, &a-addr); 
MPI-Get-addressftb-p，&b_addr); 
MPI_Get-address(n-p，&n-addnr); 
array-of-displacements[1] = baddr—a.addr; 
array-of_displacements[2] = naddr~a.addr; 
MPI_Type_create_struct(3, array.of.blocklengths, 
array_of_dispiacements, array.of types, 
input-mpit-p)i 
MPI-Type-commit(input-mpi-t-pP)， 
) /x Build.mpi_type */ 





void Get_inputtint my-rank, int comm-_sz, double* a.p, double* b_p, 
int*x n-p) | 
MPI-Datatype input_mpi.t; 


Buildmpi type(a.p, bp, np, &input mpi_t); 


if (my-rank == 0) 1 
printf(t"Enter a, b, and n\n"); 
scanf("%1f %1f %d", ap, bp, n-p); 
} 
MPpI.Bcast(a.p, 1, input_mpi_t, 0, MPI_COMM_WORLD); 


MPI_Type.free(&input_mpi_t): 
] /A/* Get_input */ 





对 一 个 MPI 代码 块 进行 计时 : 


double start, finish; 


start = MPI_Wtime(): 

/# Code to be timed */ 

finish = MPI_Wtimet); 

printf("Proc %d > Elapsed time = %e seconds\n" 
my-rank, finish—start); 


计算 串 行 代码 运行 的 时 间 不 需要 连接 MPI 库 。 在 POSIX 库 中 也 有 一 个 名 为 gettimeofday 


的 函数 ， 它 返回 自 过 去 的 某 一 时 间 点 到 计时 点 经 历 了 多 少 毫秒 。 具 体 的 语法 并 不 重要 。 在 头 文件 
timer. h 中 提供 了 一 个 宏 GET_TIME ， 你 可 以 到 本 书 的 网 站 下 载 该 文件 。 此 宏 需 要 传人 的 参数 是 
double 类 型 的 


#include "timer.h" 
double now; 


GET.TIME (now); 


执行 CET_TIME 后 ，now 参数 中 会 存储 从 过 去 到 现在 经 过 的 时 间 。 如 果 你 想 要 该 宏 计算 串 行 代码 


第 3 章 用 MPI 进行 分 布 式 内 存 编程 81 


所 经 历 的 毫秒 级 时 间 ， 可 以 运行 下 面 的 代码 : 
#include "timer.h" 
double start, finish; 


GET_TIME( start); 
Ar Code to be timed */ 


GET-TIME(finish ); 

printf("Elapsed time = %e seconds\n", finish—start); 

有 一 点 需要 强调 的 是 ;GET_TIME 是 一 个 宏 ， 所 以 代码 在 预 编译 时 被 直接 插入 源 代 码 中 。 因 
此 ， 它 是 直接 对 double 型 的 参数 进行 操作 ， 而 不 是 对 指向 double 类 型 数据 的 指针 进行 操作 。 此 
外 ，timer. h 不 在 系统 库 的 默认 路 径 内 ， 如 果 它 也 不 在 你 编译 程序 的 当前 文件 夹 内 ， 那 么 此 时 就 
有 必要 告诉 编译 器 去 哪儿 找到 它 。 例 如 ，timer. h 在 /小 ome /peter my_inciude 路 径 下 ， 应 使 
用 以 下 命令 来 编译 一 个 使 用 GET_TIME 函数 的 程序 ; 


$ gcc ~g -Wall ~I/home/peter/my-include ~o executable> 
《SOUrcCce_-code.c> 


MPI_Wtime 和 GET_TIME 都 返回 墙 上 时 钟 时 间 。 回 想 一 下 ，C 语言 中 的 cl1ock 函数 返回 的 
是 CPU 时 间 (包括 用 户 代码 、 库 函数 以 及 系统 调用 函数 所 消耗 的 时 间 ) ， 但 它 不 包括 空闲 时 间 ， 
而 在 并 行程 序 中 ， 很 多 情况 下 都 是 空闲 等 待 状态 。 例 如 ， 调 用 MPI_Recy 会 消耗 很 多 时 间 来 等 待 
消息 的 到 达 。 而 墙 上 时 钟 时 间 给 出 了 所 经 历 的 全 部 时 间 ， 包 括 空 闲 等 待 时 间 。 

还 剩 下 一 些 问 题 有 竺 解决。 首先 ， 如 前 所 述 ， 并 行程 序 会 为 每 个 进程 报告 一 次 Comm_sz 时 
间 ， 但 我 们 需要 获得 一 个 总 的 单独 时 间 。 理 想 情 况 是 ， 所 有 的 进程 同时 开始 运行 矩阵 乘法 ， 当 最 
后 一 个 进程 完成 运算 时 ， 能 获取 从 开始 到 最 后 一 个 进程 结束 之 间 的 时 间 开 销 。 换 句 话 讲 ， 并 行 时 
间 取 决 于 “最 慢 ” 进 程 花费 的 时 间 。 这 一 时 间 并 不 是 完全 精确 的 ， 因 为 我 们 无 法 保证 所 有 进程 都 
开始 于 同一 个 时 间 点 ,但 也 足够 接近 理想 的 衡量 时 间 。MPI 的 集合 通信 函数 MPI_Barrier 能 够 
确保 同一 个 通信 子 中 的 所 有 进程 都 完成 调用 该 函数 之 前 ， 没 有 进程 能 够 提前 返回 。 它 的 语法 是 : 


int MPI_Barrier(MPI-Comm Comm /x in */) 


下 面 这 段 代 码 可 以 用 来 对 一 段 MPI 程序 进行 计时 并 报告 运行 时 间 : 
double Tocal_start, local_finish, 10ocal_elapsed, elapsed; 


MPI_Barrier(comm):; 
1iocal_start = MPI-NWtime( ); 
/* Code to be timed */ 


local_finish = MPI.Wtimet)}); 

local_elapsed = 1ocal_finish 一 local_start:; 

MPI_Reduce(&local_elapsed, &elapsed, 1, MPI.DOUBLE, 
MPI_MAX , 0O, comm); 


if (my_rank == 0) 
printf("Elapsed time = %e seconds\n", elapsed): 

其 中 MPI_Reduce 函数 使 用 MPI_MAX 运算 符 ， 在 所 有 输入 参数 中 找 出 最 大 的 10cal1_elapsed。 

第 2 章 提 到 ， 我们 需要 注意 每 次 计时 的 变化 。 尽 管 每 次 的 输入 参数 一 样 ， 进 程 数 相 同 ， 运 行 
环境 也 没有 发 生 改 变 , 但 多 次 运行 同一 段 程序 仍然 可 能 会 见 到 运行 时 间 有 变化 。 因 为 系统 其 余 
部 分 ， 尤其 是 操作 系统 的 影响 ， 是 不 可 预知 的 。 这 一 影响 的 存在 ,使 得 程序 不 可 能 运行 得 比 在 
“无 干扰 ”系统 中 更 快 ， 我 们 通常 会 报告 最 小 运行 时 间 而 不 是 平均 时 间 (想得到 更 多 的 信息 ,请 
看 [5])。 1 
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最 后 ， 当 MPI 程序 运行 在 多 核 处 理 器 的 混合 系统 上 时 ， 在 每 个 节点 上 只 运行 一 个 MPI 进程 。 
这 可 以 减少 交互 时 的 竞争 ， 从 而 获得 更 佳 运行 时 间 ， 也 能 减少 运行 时 的 变化 。 
3. 6.2 结果 
2 表 3-5 是 矩阵 - 向量 乘 法 程序 的 计时 结果 。 输 入 矩阵 是 一 个 方 阵 。 时 间 以 毫秒 为 单位 ， 并 保 
留 2 位 有 效 位 。comm_sz 为 1 的 时 间 表 示 在 分 布 式 内 存 系统 中 单个 核 上 运行 串 行程 序 的 时 间 。 显 
然 ， 如 果 固定 comm_sz 的 值 ， 增 大 mn， 那么 矩阵 的 大 小 和 程序 的 运行 时 间 也 会 增加 。 进 程 数 相 对 
较 少 时 ，n 增 大 1 倍 就 会 使 运行 时 间 变 为 原来 的 4 倍 ， 然 而 当 进 程 数 很 多 时 ， 此 公式 就 不 成 立 了 。 
表 3-5 矩阵 -向量 乘 法 的 串 行 和 并 行程 序 的 运行 时 间 (单位 ; 毫秒 ) 


























矩阵 的 秩 
Comm_sz | 1024 2048 4096 8192 16 384 
1 | 4.1 16.0 . 64.0 270 1100 
2 2.3 8.5 33.0 140 560 
TT 
4 | 


























如 果 我 们 固定 n、 增 大 comm_sz， 和 那么 运行 时 间 会 减少 。 事 实 上 ， 对 于 值 很 大 的 = 来 说 ， 进 
程 数 加 倍 大 约 能 减少 一 半 的 运行 时 间 。 然 而 ， 对 值 小 的 上 ， 增 大 comm_sz 获得 的 效果 其 微 ， 例 
如 ， 当 m=1024 时 ， 进 程 数 从 8 增 大 到 16 后 ,运行 时 间 没 有 出 现 变化 。 

这 些 都 是 非常 典型 的 并 行 运行 时 间 ， 当 我 们 增 大 问题 的 规模 ， 运 行 时 间 也 随 之 变 大 ， 无论 进 
程 数 多 少 ， 都 是 这 个 趋势 。 增 加 的 速率 可 以 较为 匀速 〈 比 如 只 运行 一 个 进程 的 时 候 ) ， 也 可 能 发 
生 剧 烈 变化 〈 比 如 运行 16 个 进程 的 情况 )。 当 增加 进程 数 时 ， 运 行 时 间 会 在 一 个 阶段 内 减 小 。 然 
而 ， 达 到 某 点 后 运行 时 间 可 能 会 开始 变 得 很 慢 。 在 1024 阶 矩 阵 的 情况 下 ， 使 进程 数 从 8 增 到 16 
时 ， 我 们 就 遇 到 这 个 情况 。 

这 种 现象 的 原因 是 : 串 行程 序 的 运行 时 间 与 对 应 的 并 行程 序 的 运行 时 间 有 共同 的 联系 。 回 忆 
一 下 ，7#85 代 表 串 行 时 间 ， 由 于 它 取决 于 输入 值 ， 所 以 把 它 设 为 785 (za)。 同 理 ， 并 行 运行 时 
间 Ty 取决 于 输入 值 xn 和 进程 数目 comm_sz =p， 则 设 为 Tw (mn，p)。 第 2 章 兽 经 提 到 ， 并 行程 
序 会 将 串 行 程序 的 工作 分 配 到 各 个 进程 上 ， 但 又 会 增加 额外 的 开销 ， 设 此 开销 为 : 

Ty (Rp) = Taf (Nn) AD 十 了 开销 
在 MPI 程序 中 ， 并 行 计算 的 开销 一 般 来 自 于 通信 ， 它 同时 还 受到 问题 集 的 规模 和 进程 数 的 影响 。 
我 们 的 矩阵 - 向 量 乘法 程序 并 不 难 实现 ， 主 要 的 串 行 运 算 部 分 是 一 对 for 循环 的 嵌 套 : 
for (i = 0; i < m; i+t+) { 
y[i] = 0.0; 
for (j = 0; j < n; j++) 
| y[il += A[i*n+j]#x[j]; 
如 果 只 对 浮 点 运算 进行 计数 ， 则 内 层 循环 会 执行 上 次 乘法 和 次 加 法 ， 总 共 2n 次 浮 点 运算 。 因 
为 执行 了 m 次 内 层 循 环 ， 则 执行 上 面 这 段 代码 总 共和 需要 2mn 次 运算 。 所 以 当 m=n 时: 
Tas(n) ~ am 
2 是 常数 (符号 = 意味 着 近似 等 于 ) 。 
如 果 串 行程 序 要 执行 nxn 和气 阵 与 一 个 = 维 向量 相 乘 ， 那 么 并 行程 序 中 每 个 进程 进行 n/p xz 
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和 矩阵 与 4 维 向 量 相 乘 。 每 一 个 局 部 的 矩阵 - 向 量 相 乘 计 执 行 赤 /2 次 浮 点 运算 ， 即 每 个 进程 的 工作 
量 被 前 减 了 p 倍 。 
然而 ， 并 行程 序 在 进行 本 地 矩阵 - 向 量 乘法 前 ， 需 要 调用 MPI_A119gather 函数 。 在 我 们 的 
例子 中 : 
Ts (np) = Tas(n)/p+ T gather 
而 且 ， 根据 对 计时 数据 的 观察 发 现 ，p 值 较 小 且 n 值 较 大 时 ， 公 式 中 起 主导 地 位 的 是 Tas; (n) / 
p。 假 定 初始 时 p 较 小 (如 p=2、4)， 然 后 将 p 增加 1 倍 ， 大 约 可 以 令 运行 时 间 减 少 一 半 ， 例 如 : 
Ta5(4096) = 1.9 x Ty#(4096 ,2) 
7s81(8192) =1.9 xT,#(8192,2) 
Ts (8192,2) =2.0 xT (8192,4) 
Ta4(16,384) =2.0 x Tys(16,384,2) 
Tj#(16,384,2) =2.0 x Ts(16,384,4) 
而 且 ， 如 果 将 固定 在 较 小 值 (如 p=2、4)， 然 后 增加 nw， 效果 似乎 与 增加 串 行 程序 中 的 效果 
差不多 。 例 如 : 
Tes#(4096) =4.0 x Ts (2048) 
Ty#(4096,2) = 3.9 xT,#(2048,2) 
Ty#(4096,4) = 3.5 xT,(2048,4) 
745(8192) =4.2 x Ts (4096) 
Ts5(8192,2) =4.2 x T,#(4096 ,2) 
7# 行 (8192 ,4) =3.9 x Tr (8192 ,4) 
这 些 观 查 结果 表明 : 并 行 运算 时 间 与 串 行 运算 时 间 差 不 多 ( 即 Ty;(n,p) 约 等 于 Tar (n)/p)。 所 
以 Twwe 对 性 能 没有 造成 多 大 影响 。 
另 一 方面 ， 当 n 值 较 小 、p 值 较 大 时 ， 上 面 得 出 的 结论 不 成 立 ， 例 如 : 
7#(1024 ,8) =1.0x7Toxr(1024 ,16) 
7# 生 (2048 ,16) =1.5 x Ty#(1024,16) 
可 以 看 出 : 当 =” 值 较 小 、P 值 较 大 时 ， 公 式 中 的 对 Tn 起 主导 因素 的 参数 是 7 。 


3. 6.3 加 速 比 和 效率 
加 速 比 经 常用 来 衡量 串 行 运算 和 并 行 运算 时 间 之 疤 的 关系 ， 它 表示 为 串 行 时 间 与 并 行 时 间 的 
比值 : 


了 曲 行 (由 
3 "Pp) TtiCn,p) 


S(n,p) 最 理想 的 结果 是 p。 如果 S(n,p) =p， 说 明 拥 有 comm_sz =p 个 进程 数 的 并 行程 序 能 运 
行 得 比 串 行程 序 快 p 倍 。 这 种 被 我 们 称 为 线性 加 速 比 的 情况 事实 上 很 少 出 现 。 表 3-6 给 出 了 和 矩 
阵 - 向 量 乘法 程序 各 种 情况 下 的 加 速 比 结果 。 在 p 较 小 、n 较 大 的 情况 下 ， 我 们 获得 了 近似 于 线 
性 的 加 速 比 ， 然 而 ， 当 p 较 大 、n 较 小 时 ， 加 速 比 则 远 远 小 于 p。 最 差 的 一 种 情况 是 n= 1024 和 
P=16 时 ， 只 得 到 了 2. 4 的 加 速 比 。 
另外 ， 并 行 的 效率 也 是 评价 并 行 性 能 的 重要 指标 之 一 ， 它 其 实 是 “每 个 进程 ”的 加 速 比 : 
S(n,p) Tein) 
Wmp) = p 4 X Tying 

线性 加 速 比 相当 于 并 行 效率 p/p =1.0， 通常 ,效率 都 小 于 1。 
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表 3-6 ”并行 矩阵 - 向 量 乘 法 的 加 速 比 





























算 阵 的 秩 
comm_sz TT- 
2 055 5 [304 
1 ， ， 1.0 1.0 
2 1.9 2.0 
4 3.9 3.9 
8 。 ， . 7.5 7.9 
6 本 0 12 [3 


























表 3-7 罗列 了 和 矩阵 -向量 乘法 程序 的 并 行 效率 。 表 一 次 强调 ， 在 p 较 小 、n 较 大 的 情况 下 ， 
有 近似 线性 的 效率 ; 相反 ， 在 p 较 大 、n 较 小 的 情况 下 ， 远 远 达 不 到 线性 效率 。 


3.6.4 可 扩展 性 

我 们 的 矩阵 -向量 乘 法 的 程序 无 法 在 n 较 小 、p 较 大 时 取得 线性 加 速 比 ， 那 是 不 是 意味 着 这 
不 是 一 个 好 程序 呢 ? 许多 计算 机 科学 家 用 “可 扩展 性 ”来 回答 这 问题 。 粗 略 地 讲 ， 如 果 问 题 的 规 
模 以 一 定 的 速率 增 大 ， 但 效率 没有 随 着 进程 数 的 增加 而 降低 ， 那 么 就 可 以 认为 程序 是 可 扩展 的 。 

这 个 定义 的 争议 之 处 在 于 “问题 规模 以 一 定 的 速率 增 大 ……” 试想 两 个 并 行程 序 A 和 B， 假 
设 p 关 2， 不 考虑 问题 的 规模 ， 程 序 A 的 效率 是 0.75。 另 外 一 个 并 行程 序 B，P>>2 且 1000 <n< 
625p ， 程 序 B 的 效率 为 n/ 〈625p) 。 根 据 我 们 的 “定义 ”， 两 个 程序 都 是 可 扩展 的 。 对 于 程序 A， 
维持 效率 所 需要 的 问题 规模 递增 速率 为 0; 而 对 于 程序 B 来 说 ， 如 果 增 加 的 速率 与 增加 p 一 样 
快 , 那么 就 能 够 维持 一 个 恒定 的 效率 。 例 如 ，n =1000 和 p=2 时 ，B 的 效率 为 0.80， 如 果 把 p 的 
数值 翻 倍 为 4， 同 时 间 题 的 规模 仍然 维持 n = 1000， 那 么 程序 的 效率 将 会 降 到 0. 40, 但 是 ， 若 我 
们 同时 把 n 也 增加 1 们 到 2000， 那么 整个 程序 的 效率 就 能 继续 维持 在 0.80。 所 以 从 这 点 来 看 ， 程 

序 A 比 程 序 B 更 有 扩展 性 ,但 是 两 者 都 满足 我 们 对 于 可 扩展 的 定义 。 

再 看 表 3-7 中 的 并 行 效 率 ， 可 以 看 到 矩阵 - 向 量 乘法 程序 没 能 达到 与 程序 A 一 样 高 的 可 扩展 
性 : 在 大 多 数 情况 下 ， 当 p 增加 时 ， 效率 就 会 降低 。 男 一 方面 ， 这 个 并 行程 序 有 些 类 似 于 程序 B: 
当 p 守 2， 以 2 为 倍数 同时 递增 p 和 nn， 并行 效 率 确实 提高 了 ， 唯 一 的 例外 发 生 在 p 从 2 增 到 4 时。 
计算 机 科学 家 在 谈 及 可 扩展 性 时 ， 一 般 主要 关注 p 数值 非常 大 的 情况 下 。 当 p 从 4 增 大 到 8, 或 
者 从 8 增 大 到 16, 以 2 的 倍数 增加 时 ， 程 序 的 并 行 效率 也 会 增加 。 

车 程序 可 以 在 不 增加 问题 规模 的 前 提 下 维持 恒定 效率 ， 那么 此 程序 称 为 拥有 强 可 扩展 性 ; 当 
问题 规模 增加 ， 通 过 增 大 进程 数 来 维持 程序 效率 的 ， 称 为 弱 可 扩展 性 。 程 序 A 是 前 者 ,程序 B 是 
后 者 ， 我 们 的 矩阵 - 向 量 乘法 显然 也 是 弱 可 扩展 性 的 。 
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3.7 并 行 排序 算法 

在 分 布 式 内 存 系统 上 如 何 实现 并 行 排序 算法 ?“ 输 入 ”和 “输出 ”分 别 是 什么 ? 答案 取决 于 
需要 排序 的 键 值 存储 在 哪 。 可 以 在 程序 开始 或 结束 时 ， 将 键 值 分 布 在 多 个 进程 中 ， 也 可 以 只 分 配 
给 一 个 进程 。 本 节 ， 我 们 来 讨论 一 个 分 布 式 算法 的 实现 ， 其 中 键 值 是 分 配 到 各 个 进程 上 。 在 编程 
作业 3.8 中 ,我 们 将 探讨 结束 时 将 键 值 分 配给 一 个 进程 的 算法 。 

设 总 共有 个 键 值 ，p = comm_sz 个 进程 ， 给 每 个 进程 分 配 n/p 个 键 值 〈 与 前 面 一 样 ， 假 定 
n 能 被 p 整除 )。 开 始 时 ， 不 对 哪些 键 值 分 配 到 哪个 进程 上 加 以 限制 ， 然 而 在 算法 结束 时 : 

。 每 个 进程 上 的 键 值 应 该 以 升序 的 方式 存储 。 

。 若 0<g<r<p， 则 分 配给 进程 g 的 每 一 个 键 值 应 该 小 于 等 于 分 配给 进程 r 的 每 一 个 键 值 。 
所 以 如果 按照 进程 编号 来 进行 键 值 排列 ( 即 先是 进程 0 的 键 值 ， 接 着 进程 1 的 ， 以 此 类 推 )， 
所 有 的 键 值 就 可 以 按 升序 排列 。 为 了 保证 表达 的 清晰 性 ， 假 设 键 值 都 是 普通 的 int 类 型 。 


3.7.1 简单 的 囊 行 排序 算法 

开始 排序 前 ， 让 我 们 先 看 看 一 组 简单 的 串 行 排序 算法 ， 可 能 其 中 最 有 名 的 就 是 冒 泡 排序 法 
( 见 程序 3-14) 。 数 组 a 存储 未 排序 的 键 值 ， 调 用 排序 函数 后 给 出 排 完 序 的 键 值 。 数 组 a 中 共有 
个 键 值 ， 算 法 按 对 比较 元 素 大 小 : al0] 与 ali] 比 ,a[l]j 和 a[2]j 比 ， 以 此 类 推 ， 只 要 该 对 的 顺 
序 不 对 ,就 互相 交换 位 置 。 当 1ist_length =n 时 , 第 一 次 外 部 循环 遍历 后 ， 序 列 中 的 最 大 值 
被 移动 到 a[ n -1]。 第 二 回 遍历 去 除 最 后 一 个 元 素 ， 并 把 次 大 的 元 素 移 人 aLn -2]。 所 以 ， 随 着 
1ist_length 的 减少 ， 越 来 越 多 排 好 序 的 元 素 安置 在 数组 的 后 部 。 


程序 3-14 ” 串 行 冒 泡 排序 





void Bubble_-sort( 


1 

2 int ar] /x# in/out */, 

3 int nn /# in */) { 

4 int list.length, i, temp; 

5 

6 for (1ist-lengthn = n; list.length >= 2; 1ist-1ength- 一 ) 
7 for (i = 0; i < list.length—l: i++) 

8 if (a[i] > afi+l])y { 

9 temp = afi]; 

10 a[li] = a[i+l]; 


1] a[i+1] = temp: 
12 } 


14 } /Fr Bubbie_sort */ 





因为 其 固有 的 串 行 按 对 排序 特性 ， 并 行 化 上 述 算法 意义 不 大 。 假设 a[i -1] =9, a[i] =5， 
a[i+1] =7, 算法 会 先 比较 9 和 5 并 交换 ,然后 比较 9 和 7 并 交换 ， 得 到 5、7、9 的 排列 。 但 
是 ， 如 果 比 较 操 作 本 身 是 乱 序 的 ， 例 如 ， 先 比较 5 和 7， 再 比较 9 和 5， 比 较 后 得 到 的 序列 是 5、 
9、7。 因 此 ,“ 比 较 -交换 ”的 顺序 对 算法 的 正确 性 非常 重要 。 
鲁 泡 排序 的 一 个 变种 是 奇偶 交换 排序 ， 该 算法 更 加 适合 并 行 化 。 关 键 在 于 去 耦 的 比较 - 交换。 
此 算法 由 一 系列 阶段 组 成 ， 这 些 阶 段 分 2 种 类 型 。 在 偶数 阶段 ， 比 较 - 交换 由 以 下 数 对 执行 : 
(a[0],a[1]),(a[l2] ,al3]),(a[l4] ,al5]),.…, 
而 奇数 阶段 则 由 以 下 数 对 进行 比较 - 交换: 
(a[1],a[2]),(a[3],a[4]),(a[l5],a[6]),.…, 
这 里 有 个 小 例子 : 
开始 ; 5、9、4、3 
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偶数 阶段 ; 比较 -交换 (5, 9) 和 (4,， 3) ， 获 得 序列 5、9、3 、4。 
奇数 阶段 : 比较 -交换 (9，3) ， 获 得 序列 5、3、9 、4。 
偶数 阶段 :比较 -交换 (5,，3) 和 (9, 4) ， 获 得 序列 3、5、4 、9。 
奇数 阶段 ; 比较 -交换 (5，4) ， 获 得 序列 3、4、5 、9。 


这 个 例子 需要 四 个 阶段 来 排序 四 个 元 素 的 列表 。 一 般 来 说 ， 阶 段 可 能 会 更 少 些 ， 下 面 的 这 个 定理 


保证 了 我 们 至 多 用 ”个 阶段 排序 n 个 元 素 。 


定理 : 设 A4 是 一 个 拥有 nn 个 键 值 的 列表 ， 作 为 奇偶 交 挽 排序 算法 的 输入 ， 那 么 经 过 个 阶段 


后 ,4 能 够 排 好 序 。 
程序 3-15 显示 了 一 个 串 行 奇偶 交换 排序 函数 。 


程序 3-15 奇偶 排序 程序 的 串 行 代码 





void Odd_even_sortt 


1 

2 int ar] /kr in/out */, 

3 int n /本 Tn */) 

4 int phase, i, temp; 

5 

6 for (phase = 0; phase < n; phaset+) 
7 if (phase % 2 == 0) { /x* fven phase */ 
8 for (i= 1; i<n; i += 2) 
9 if fafi-l] > a[il}y | 

10 temp = a[ij: 

1! a[i] = a[i—l1]:; 

12 afi—l1] = temp: 

13 } 

14 } else { /x Odqd phase *’ 

15 for (i= 1; i < n-l; i += 2) 
16 if (ar[i] >ari+l]) { 

17 temp = arji]; 

18 a[li] = a[li+]]:; 

19 a[i+1] = temp; 

20 } 

21 } 

22 } /x Odd.even_sort */ 








3.7.2 并 行 奇偶 交换 排序 


很 清楚 的 是 : 奇偶 交换 排序 远 比 置 泡 排序 适合 并 行 化 ， 因 为 在 一 个 阶段 内 所 有 的 比较 - 交换 


都 能 同时 进行 。 
实现 Foster 方法 有 很 多 可 能 的 办 法 ， 这 里 是 其 中 一 个 : 
。 任务 : 在 阶段 / 结束 时 确定 a[ i ] 的 值 


。 通信 : 确定 a[ i] 值 的 任务 需要 与 其 他 确定 a[ i +1] 或 者 al i -1] 的 任务 进行 通信 ， 同 


时 ， 在 阶段 j 结 束 时 ，a[ i ] 的 值 需要 用 来 在 阶段 +1 结束 时 确定 a[ i ] 的 值 。 
图 3-12 显示 了 这 一 过 程 ， 我 们 用 a[ ij 来 标记 确定 a[ i ] 值 的 任务 。 


一 < 
ED GD mem 


图 3-12 一 次 奇偶 排序 中 任务 间 的 通信 。 用 a[ i 来 标记 确定 af i ] 值 的 任务 
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我 们 注意 到 ， 在 排序 算法 开始 和 结束 阶段 ， 给 每 个 进程 分 配 n/p 个 键 值 。 因 此 ， 在 这 个 情况 
下 ,算法 中 的 聚集 和 分 配 部 分 是 由 问题 的 描述 来 指定 的 。 让 我 们 看 看 以 下 两 种 情况 。 

当 n=p 时 , 图 3-12 非常 清楚 地 描述 了 算法 是 如 何 进 行 的 。 根 据 阶 段 ， 进 程 i 可 以 将 当前 自 
己 拥有 a[ i ] 值 发 送 给 进程 i-1 或 者 进程 i+1。 同 时 ， 它 也 应 该 接收 存储 在 进程 -1 或 者 进程 i 
+1 的 值 ， 然 后 决定 保留 两 个 值 中 的 哪个 来 为 下 一 个 阶段 做 准备 。 

然而 , 事实 上 ， 不 太 可 能 在 n =p 的 情况 下 运行 该 算法 ， 因 为 不 可 能 有 成 百 上 千 个 处 理 右 。 
另外 ， 即 使 有 这 样 的 处 理 器 ， 每 一 次 比较 - 交换 时 ， 发 送 和 接收 消息 导致 的 额外 时 间 开 销 会 严重 
降低 程序 的 运行 时 间 。 记 住 ， 通信 开销 远 比 “局 部 ”计算 (如 “比较 ") 开销 大 。 

当 每 个 进程 存储 n/p >1 个 元 素 时 (n 能 被 p 整除 ) ， 该 怎样 修改 程序 呢 ? 来 看 看 下 面 的 例子 ， 
假设 我 们 有 p =4 个 进程 , = 16 个 键 值 ， 详 见 表 3-8。 对 分 配给 每 个 进程 的 键 值 使 用 快速 的 串 行 
排序 法 ， 如 用 C 语言 库 的 qsort 函数 对 局 部 链 值 进行 排序 。 现 在 ， 如 果 每 个 进程 有 一 个 元 素 ， 
那么 进程 0 和 进程 1 交换 数据 ， 进 程 2 和 进程 3 交换 数据 。 我 们 试 着 使 进程 0 和 进程 1 交换 数据 ， 
进程 2 和 进程 3 交换 数据 ， 那 么 进程 0 就 会 有 4 个 比 进程 1 中 数据 小 的 元 素 ， 而 进程 2 则 拥有 4 
个 比 进程 3 中 数据 小 的 元 素 ， 这 就 是 表 3-8 中 第 3 行 的 情况 。 再 次 看 一 个 进程 中 只 有 一 个 元 素 的 
例子 ， 在 阶段 1， 进程 1 和 进程 2 交换 元 素 ， 而 进程 0 和 进程 3 是 空闲 的 。 如 果 进 程 1 有 着 较 小 的 
一 些 元 素 ， 而 进程 2 拥有 较 大 的 一 些 元 素 ， 那 么 就 得 到 表 3-8 中 第 4 行 的 情况 。 继 续 让 这 些 进程 
再 运行 2 个 阶段 ， 就 能 获得 排 好 序 的 列表 。 即 每 个 进程 的 键 值 以 升序 排列 ， 并 且 ， 如 果 9<r， 分 
配给 进程 9 的 键 值 必定 小 于 或 等 于 分 配 进 程 的 键 值 。 [0 

事实 上 ， 我 们 所 举 的 例子 已 经 是 该 算法 性 能 最 差 时 的 情况 了 。 


表 3-8 并 列 奇偶 交换 排序 











































5 
局 部 排序 后 3, 7, 8, 14 4, 6, 10, 12 1, 2, 5, 13 
阶段 0 后 11, 14, 15. 16 1, 2, 4, 5 6, 10, 12, 13 
阶段 1 后 1, 2, 4, 5 11, 14, 15, 16 6, 10, 12, 13 
阶段 2 后 13, 14, 15, 16 
13, 14, 15, 16 


定理 : 如 果 由 疡 个 进程 运行 并 行 奇偶 交换 排序 算法 ， 则 疡 个 阶段 后 ， 输 入 列表 排序 完毕 。 
并 行 算法 对 于 人 工 计 算 机 来 说 已 足够 清晰 : 


Sort 1ocal keys; 
for (phase = 0; phase < comm-sz: phase++) { 
partner = Compute-.partner(phase, my-rank):; 
if (Imnot idle) { 
Send my keys to partner; 
Receive keys from partner: 
if (my.rank < partner) 
Keep smaller keys;: 
else 
Keep Targer keys;: 
} 
} 


然而 ， 在 把 该 算法 转 为 MPI 程序 前 ， 我 们 需要 先 搞 清楚 一 些 细节 问题 。 
首先 ， 怎 么 计算 配对 运行 的 另 一 个 进程 的 进程 号 ? 当 一 个 进程 空闲 时 ， 它 的 配对 进程 又 是 什 
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么 ? 在 偶数 阶段 ， 进 程 号 是 奇数 号 进程 与 my_rank -1 号 进程 配对 进行 交换 ， 而 进程 号 是 偶数 的 
进程 与 my_rank +1 号 进程 配对 进行 交换 ; 在 奇数 阶段 时 ， 上 述 配 对 正好 相反 。 然 而 ， 这 种 配对 
可 能 是 无 效 的 ; 如 果 my_rank =0 或 者 my_rank = Comm_sz -1， 那 么 它 的 配对 进程 号 就 是 -1 
或 者 comm_sz。 若 partner = -1 或 partner= comm_sz， 那么 该 进程 应 该 是 空闲 的 。 可 以 计 
算 Compute_partner 来 决定 一 个 进程 是 否 空闲 。 


if (phase % 2 == 0) /* Even Phase */ 
if (my-rank % 2 != 0) /* Odd rank */ 
partner = my-rank ~ 1; 
else /* Even rank */ 
partner = my-rank + 1; 
[ET else /x* Odd phase */ 
if (my-rank % 2 != 0) Ar Odd rank */ 
partner = my-rank + 1; 
else /A*# Even rank */ 
partner = my-rank — 1; 
if (partner == —l1 || partner == comm_sz) 


partner = MPI_PROC_NULL:; 


MPI_PROC_NULL 是 由 MPI 库 定义 的 一 个 常量 。 在 点 对 点 通信 中 ， 将 它 作 为 源 进程 或 者 目标 进程 
的 进程 号 ， 此 时 ， 调 用 通信 函数 后 会 直接 返回 ， 不 会 产生 任何 通信 。 


3.7.3 MPI 程序 的 安全 性 
如 果 进 程 不 是 空闲 的 ， 我 们 可 以 通过 调用 MP1_Send 和 MPI_Recy 来 实现 通信 : 


MPI_Send(my_keys, n/comm_sz, MPI_INT, partner, 0, comm); 
MPI_Recvy(temp_keys, n/comm_sz, MPI_INT, partner, 0, comm, 
MPI.STATUS_IGNORE ); 


但 这 可 能 会 导致 程序 挂 起 或 者 般 演 。 回 忆 一 下 ，MPI 标准 允许 MPI_Send 以 两 种 不 同 的 方式 来 实 
现 : 简单 地 将 消息 复制 到 MPI 设置 的 缓冲 区 并 返回 ,或 者 直到 对 应 的 MPI_Recyv 出 现 前 都 阻塞 。 
此 外 ,许多 MPI 函数 都 设置 了 使 系统 从 缓冲 到 阻塞 间 切 换 的 阔 值 ， 即 相对 较 小 的 消息 就 交 由 MPI 
_Send 缓冲 ， 但 对 于 大 型 数据 就 选择 阻塞 模式 。 如 果 每 个 进程 都 阻塞 在 MPI_Send 上 ， 则 没有 进 
程 会 去 调用 MPI_Recv， 此 时 程序 就 会 死 锁 或 挂 起 ， 每 个 进程 都 在 等 待 一 个 不 会 发 生 的 事件 
发 生 。 

依赖 于 MPI 提供 的 缓冲 机 制 是 不 安全 的 ， 这 样 的 程序 在 运行 一 些 输入 集 时 没有 问题 ， 但 有 可 
能 在 运行 其 他 输入 集 时 导致 崩溃 或 挂 起 。 这 样 使 用 MPI_Send 和 MPI_Recv， 程 序 会 不 安全 。 可 
能 当 值 较 小 时 ， 程 序 没 有 问题 ,但 一 旦 n 变 大 ， 问 题 或 许 就 会 出 现 从 而 导致 挂 起 或 崩 演 现象 。 

这 里 引出 了 一 些 问 题 : 

1) 一 般 来 说 ， 怎 么 才能 说 一 个 程序 是 安全 的 ? 

2) 我 们 怎样 修改 并 行 奇偶 交换 排序 程序 的 通信 过 程 ， 使 其 安全 ? 

要 解决 第 1 个 问题 ， 我 们 可 以 用 MPI 标准 提供 的 另 一 个 函数 来 代替 MPI_Send， 这 个 函数 是 
MPI_Ssend。 这 个 额外 的 字母 “s” 代 表 同 步 ， 函 数 MPI_Ssend 保证 了 直到 对 应 的 接收 开始 前 ， 
发 送 端 一 直 阻 塞 。 所 以 ， 我 们 通过 将 MPI_Send 替换 为 MPI_Ssend 来 检查 程序 是 否 安全 ， 如 果 
输入 合适 的 值 和 comm._.sz， 程 序 没 有 挂 起 或 者 崩溃 ， 那 么 原来 的 程序 是 安全 的 。MPI_Ssend 与 

MPI_Send 调用 的 参数 是 相同 的 。 


int MPI-Ssend( 


Void* msg-buf-p /* in #*/, 
int msg_size Ar in */, 
MPI-Datatype msg_type /A¥ in */, 
int dest /¥ 了 mn */, 
int tag A# TN */ 


MP1I_Comm Communicator /Ax in */); 
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第 二 个 问题 的 解决 方法 是 重 构 通 信 。 造 成 程序 不 安全 的 最 大 因素 在 于 多 个 进程 先 同 时 发 送 消 
息 ， 再 同时 接收 消息 。 我 们 在 配对 进程 之 间 的 数据 交换 就 是 其 中 一 个 例子 。 另 一 个 例子 是 “ 环 状 
传递 ”， 每 个 进程 g 向 进程 g+1 发 送 消息 ， 进 程 comm_sz -1 向 进程 0 发 送 消息 : 


MPI_Send(msg, size, MPI_INT, (my_rank+1) % comm_sz, 0, comm); 
MPI_Recv(new msg, Size, MPI_INT, (my_rank+comm._sz2—1) % Comm-sz ， 
-0, comm, MPI_STATUS_IGNORE). 


我 们 需要 重 构 这 两 个 通信 函数 ， 使 一 些 进 程 先 接收 消息 再 发 送 消息 。 例 如 ， 可 以 改 成 : 
if (my-rank % 2 == 0) { 
MPI.Send(msg, size, MPI_INT, (my-rank+1) % comm.sz, 0, comm); 
MPI_Recv(new_msg, size, MPI_INT, (my.rank+comm.sz—l1) % comm._sz, 
0, comm, MPI1_STATUS_IGNORE). 
} else 1 
MPl.Recv(new_msg, size, MPI_INT, (my-rank+comm.sz—l) % comm_sz, 
0, comm, MPI_STATUS_IGNORE) 
MpI.Send(msg, Size, MPI_INT, {my.rank+l) % comm.sz, 0, comm); 
} 
如 果 comm_sz 是 偶数 ， 那么 这 样 的 改动 会 取得 很 好 效果 。 例 如 comm_sz =4， 则 进程 0 和 进程 2 
会 先 向 进程 1 和 进程 3 发 送 消息 ， 而 进程 1 和 进程 3 等 待 接收 来 自 进程 0 和 进程 2 的 消息 。 而 在 
下 一 个 发 送 -接收 阶段 ， 前 后 两 对 进程 换 一 个 次 序 接收 和 发 送 消息 : 进程 1 和 进程 3 发 送 消 息 给 
进程 2 和 进程 0， 而 进程 2 和 进程 0 接收 来 自 进程 1 和 3 的 消息 。 
但 是 ， 当 comm_sz 是 奇数 时 (comm_sz >1) ， 这 个 机 制 可 能 是 不 安全 的 。 假 定 comm_sz = 
5。 图 3-13 显示 了 事件 另 一 种 可 能 的 顺序 ， 实 线 箭 头 表 明 完 整 的 通信 ， 虚 线 箭 头 表示 该 通信 正在 
等 待 完成 。 
MPI 提供 了 自己 调度 通信 的 方法 ， 我 们 把 这 个 函数 称 为 4PI_Sendrecv: 


int MPI_Sendrecyv! 
Void* Send_-buf-p LT 本 /， 


int send_buf_size  / in */, 
MPI-Datatypa send.buf_type /x* in */, 
int dest /# im #*/, 
int send_tag /A# in x*/, 
void* recv_buf_p /* Out 本 /， 
int recv_buf.size  /# in #*/, 
MPI_Datatype recv.buf_type /x* in */, 
int source /+ 1n #*/, 
int recv-tag /x*¥ in #*/, 
MP1.Comm communicator /x in */, 
MPI_Statusx* status-p /# iN */); 


oO © 
og wa 


时 间 0 时 间 1 时 间 2 
图 3-13 5 个 进程 之 间 的 安全 通信 


调用 一 次 这 个 函数 ， 它 会 分 别 执行 一 次 阻塞 式 消息 发 送 和 一 次 消息 接收 ，dest 和 source 参数 
可 以 不 同 也 可 以 相同 。 它 的 有 用 之 处 在 于 ，MPI 库 实现 了 通信 调度 ， 使 程序 不 再 挂 起 或 出演。 我 
们 之 前 的 代码 很 复杂 ， 需 要 检查 进程 号 是 奇数 还 是 偶数 ， 现 在 可 以 替换 为 调用 MPI_Sendrecv 
函数 。 如 果 发 送 和 接收 使 用 的 是 同一 个 缓冲 区 ， 那 么 MPI 库 还 提供 了 一 个 函数 : 
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int MPI-Sendrecv-rep1acei 


voidx buf_p LA in/out x/, 
int buf.size /A in */， 
MPI_Datatype buf_type /in 站/ ， 
int dest As in */s 
int send_tag A i 六 ， 
int source /本 In 水 /， 
int recv.tag A*¥ Tn */， 
MPI_Comm communicator AL 末了 站 */, 
MPl_Statusx* status.p A/ I */)s; 


3.7.4 并 行 奇 偶 交 换 排序 算法 的 重要 内 容 
我 们 已 经 设计 了 如 下 所 示 的 并 行 奇 偶 排序 算法 : 


Sort local keys; 
for (phase = 0; phase < comm_sz; phase++) | 
partner = Compute-partner(phase，my-rank ); 
if {I’m rot jdle) |{ 
Send my keys to partner 
Receive keys from partner; 
if (my-rank < partner) 
Keep smaller keys; 
else 
Keep larger keys: 
} 
} 


从 安全 性 的 角度 看 ， 可 以 使 用 MPI_Sendrecy 实现 消息 的 接收 和 发 送 : 


MPpI.Sendrecv(my_keys, n/comm.sz, MPI.INT, partner, 0, 
recv_keys, n/comm.sz, MPI_INT, partner, 0, comm. 
MPi.Status.ignore): 


接 下 来 ， 就 需要 确认 我 们 要 保留 哪些 键 值 了 。 假 设 我 们 保留 较 小 的 键 值 。 那 么 ， 我 们 希望 在 
2r/p 个 键 值 中 保存 最 小 的 n/p 个 键 值 。 一 个 显而易见 的 方法 是 在 列表 中 用 串 行 算法 对 这 2rvp 个 
键 值 进行 排序 ， 然 后 保留 列表 的 前 半 段 。 然 而 ， 排 序 是 相对 开销 比较 大 的 操作 ， 因 为 我 们 已 经 有 
2 个 有 着 np 个 键 值 且 已 排序 的 列表 ， 那么 只 需要 通过 合并 它们 为 一 个 列表 就 可 以 节省 很 多 开销 。 
事实 上 还 可 以 做 得 更 好 ， 因 为 我 们 不 需要 完全 的 排序 .一旦 发 现 了 最 小 的 wp 个 键 值 ， 就 可 以 退 
出 了 。 具 体 的 实现 见 程序 3-16。 

为 了 取得 最 大 的 n/p 个 键 值 ， 我 们 简单 地 反 转 合并 的 顺序 ， 即 从 10ca1_n -1 开始 从 后 向 前 
地 操作 数组 。 最 后 ， 还 有 一 处 可 优化 的 地 方 : 避免 复制 数组 而 只 是 交换 指针 ( 详 见 习题 3. 28) 。 

表 3-9 是 “最 终 优化 ”后 并 行 奇偶 排序 算法 的 运行 时 间 。 可 以 看 到 ， 如 果 它 运行 在 单 核 处 理 
器 上 ， 它 会 使 用 排序 局 部 键 值 所 用 的 串 行 算 法 ， 即 快速 排序 ， 而 不 是 奇偶 交换 排序 ， 后 者 在 单 核 
处 理 器 上 的 运行 时 间 比 前 者 慢 。 我 们 将 在 习题 3. 27 中 更 深入 地 研究 这 些 时 间 。 


表 3-9 ”并行 奇偶 排序 算法 的 运行 时 间 (单位 : 毫秒 ) 





























键 值 的 数量 (单位 ; 于 ) 
进程 1 
200 400 800 1600 3200 
1 88 190 390 830 1800 
2 43 91 190 410 860 
4 22 46 96 200 430 
8 12 24 51 110 220 
16 7.5 14 29 60 130 
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程序 3-16 并行 奇偶 排序 算法 中 的 Merge_1ow 基数 


void Merge_lowt 


int my-keys[], A¥ Tin/out * 
int recv_keys[], /I 冰 
int temp_keys[], /A*# SCratch 本 7 
int 19caln /# = Np, in */) | 
int m-i， ri, ti; 
mi= ri= ti= 0; 


while (tt.i «< 1ocal-n) 1{ 
if (my-keys[Lnm-i] 《= recv-keysfr-i]) | 
temp_-keys[ti] = my-keysfnm-iji; 
tit+; -i++i 
} else ! 
temp-keystt-1] = recv-keys[r-i]' 
i++ Pi++: 
} 
} 


for mi = 0; mi < local_n; m-i++) 
my-keystm-il = Temp-keaysfnm-i]; 
/* Merge1OW */ 





3.8 小 结 


消息 传递 接口 (MPI) ， 是 一 个 可 以 被 C、C ++ 和 Fortran 程序 调用 的 函数 库 。 许 多 系统 使 用 
mpicc 编译 MPI 程序 ， 并 通过 mpiexec 运行 它们 。C MPI 程序 需要 包括 mpi. h 的 头 文件 才能 使 
用 MPI 库 定义 的 函数 和 宏 。 

MPI_Init 函数 建立 MPI 程序 ， 它 应 该 最 先 被 调用 。 若 程序 不 使 用 argc 和 argv， 可 以 直接 
传人 NULL。 

在 MPI 中 ， 一 个 通信 子 是 一 组 进程 的 集合 ， 该 集合 中 的 进程 之 间 可 以 相互 发 送 消息 。MPI 程 
序 启动 后 ，MPI 创建 由 所 有 进程 组 成 的 通信 子 ， 称 为 4PI_COMM_WNORLD。 

许多 并 行程 序 使 用 单程 序 多 数据 流 (SPMD) 的 方法 ， 通 过 根据 不 同 的 进程 号 转移 到 不 同 的 
分 支 语 句 ， 使 得 运行 一 个 程序 就 能 够 获得 运行 多 个 不 同 程序 的 效果 。 用 完 MPI 后 ， 记 得 调用 MPI 
_Finalize 消 数 结束 程序 。 

要 想 从 一 个 MPI 进程 发 送 数 据 给 另 一 个 进程 ， 可 以 调用 MPI_Send 孙 数 ， 而 MPI_Recy 函数 是 
用 来 接收 消息 。MPI_Send 了 晴 数 的 参数 描述 了 数据 的 内 容 和 它 的 目的 地 ， 而 MPI_Recy 函数 的 参数 
描述 了 用 于 存储 接收 到 数据 的 缓冲 区 ， 以 及 应 从 哪 接收 数据 。MPI_Recy 是 阻塞 的 ， 即 调用 MPI_ 
Recy 后 ， 直 到 消息 收 到 (或 者 发 生 一 个 错误 ) 前 ， 该 函数 不 会 返回 。MPI_ Send 的 行为 则 由 
MPI 的 实现 来 定义 ， 它 可 以 阻塞 或 缓冲 发 送 的 消息 。 当 它 阻 塞 时 ， 在 相应 的 接收 启动 前 它 不 会 返 
回 ; 如 果 缓 冲 消息 ，MPI 会 将 其 复制 到 它 私有 的 存储 空间 ， 一 旦 复制 完成 ，MPI_Send 就 会 返回 。 

编写 MPI 程序 时 ， 非 常 重 要 的 一 点 是 区 分 局 部 变量 和 全 局 变量 。 局 部 变量 只 作用 于 定义 它 的 
那个 进程 ， 而 全 局 变量 则 作用 于 全 部 进程 。 在 梯形 积分 法 的 程序 中 ， 梯 形 的 全 部 数量 n 是 一 个 全 
局 变量 ， 每 个 进程 区 间 的 左 、 右 端点 是 局 部 变量 。 

大 多 数 串 行程 序 是 确定 性 的 ， 意 味 着 我 们 若 用 同一 个 程序 运行 相同 的 数据 得 到 的 结果 是 一 样 
的 。 记 住 ， 并 行程 序 一 般 没 有 这 个 特性 ， 如 果 多 个 进程 独立 运行 ， 由 于 进程 控制 外 的 事件 ， 它 们 
可 能 在 不 同时 间 点 运行 到 不 同 的 程序 。 因 此 ， 并 行程 序 是 非 确定 性 的 ， 同 样 的 输入 会 得 到 不 同 的 
输出 。 如 果 MPI 程序 中 的 所 有 进程 都 打印 输出 的 结果 ， 那 么 每 次 程序 运行 时 打印 出 来 的 顺序 是 不 
同 的 。 因 为 这 个 原因 ，MPI 程序 用 一 个 进程 (进程 0) 负责 打印 结果 是 很 常见 的 方法 。 当 然 ， 调 
试 时 我 们 一 般 会 忽略 这 个 规则 ， 人 允许 每 个 进程 打印 各 自 的 调试 信息 。 


91 


92“ 并 行程 序 设计 导论 





大 部 分 MPI 实现 允许 所 有 的 进程 将 结果 打印 到 stdout 和 stderr。 然 而 ， 任 意 一 个 MPI 实 
现 都 是 只 允许 一 个 进程 (一般 使 用 MPI_COMM_WORLD 中 的 进程 0) 读 取 从 stdin 输入 的 数据 。 

集合 通信 不 同 于 只 涉及 两 个 进程 的 MPI_Send 和 MPI_Recv， 它 涉及 一 个 通信 子 中 的 所 有 进 
程 。 为 了 区 分 这 两 种 通信 方式 ，MPI_Send 和 MPI_Recy 常常 称 为 点 对 点 通信 。 

两 个 常用 的 集合 通信 函数 是 MPI_Reduce 和 MPI_A11reduce。MPI_Reduce 存储 全 局 操作 的 
结果 (如 求全 局 总 和 ) 到 指定 的 进程 ，MPI_A11reduce 将 结果 存储 到 通信 子 中 的 全 部 进程 中 。 

有 些 类 似 于 MPI_Reduce 的 MPI 函数 ， 可 能 会 将 同样 的 参数 传递 到 输入 和 输出 缓冲 区 中 。 
这 种 现象 称 为 参数 别名 ，MPI 显 式 地 禁止 了 输出 参数 与 其 他 参数 相 混淆。 

我 们 学 习 了 很 多 重要 的 MPI 集合 通信 函数 : 

e MPI_Bcast 从 单个 进程 向 同一 个 通信 子 中 的 所 有 其 他 进程 发 送 消 息 ， 这 个 函数 非常 有 用 ， 
例如 ， 进程 0 从 stdin 读 取 输入 数据 ， 而 这 些 数据 需要 发 送 给 其 他 进程 。 
MPI_Scatter 在 各 个 进程 间 分 配 一 个 数组 的 元 素 。 如 果 数 组 有 n 个 元 素 ， 进 程 数 量 为 p， 
则 第 一 组 的 np 个 元 素 发 送 到 进程 0， 第 二 组 n/p 个 元 素 发 送 到 进程 1， 以 此 类 推 。 
MPI_Gather 是 MPI_Scatter 的 “ 逆 操 作 ”。 如 果 每 个 进程 都 存储 了 包含 m 个 元 素 的 子 
数组 ， 那 么 MPI_Gather 将 收集 这 些 元 素 到 一 个 特定 的 进程 中 ， 先 从 进程 0 收集 元 素 ， 
然后 是 进程 1， 以 此 类 推 。 

MPI_A11gather 类 似 于 MPI_6Gather， 但 它 收集 所 有 的 元 素 并 分 发 给 所 有 的 进程 。 
MPI_Barrier 用 来 同步 进程 ， 在 同一 个 通信 子 中 的 所 有 进程 调用 该 函数 前 ， 所 有 调用 
MPI_Barrier 的 进程 都 不 能 返回 。 

分 布 式 内 存 系统 是 没有 全 局 共享 内 存 的 ， 所 以 在 编写 MPI 程序 时 ， 如 何 将 数据 分 割 并 分 配 到 
各 个 进程 上 是 关键 点 。 对 于 普通 的 向 量 与 数组 ， 我 们 可 以 使 用 块 划分 、 循 环 划分 以 及 块 -循环 划 
分 。 如 果 全 局 向 量 或 数组 有 n 个 元 素 ， 系 统 中 有 p 个 进程 ,那么 块 划 分 分 配 开 始 的 n/p 个 元 素 给 
进程 0， 接 下 去 的 n/p 个 元 素 分 配给 进程 1， 以 此 类 推 。 循 环 划分 以 循环 方式 分 配 元 素 ， 第 一 个 元 
素 分 给 进程 0， 第 二 个 元 素 分 给 进程 1，…， 第 个 元 素 分 给 进程 p -1， 分配 完 开始 的 p 个 元 素 
后 ， 再 从 第 一 个 进程 开始 分 配 第 二 轮 的 p 个 元 素 ， 以 此 类 推 。 块 -循环 划分 将 元 素 的 块 以 循环 划 
分 方式 分 配给 各 个 进程 。 

与 只 涉及 CPU 和 主 存 的 操作 相 比 ， 发 送 消息 的 开销 是 “昂贵 ”的 。 而 且 ， 用 尽 可 能 少 的 次 
数 发 送 尽 可 能 多 的 消息 可 以 节省 开销 ， 所 以 将 多 个 消息 合并 为 一 个 消息 发 送 是 降低 开销 的 好 方 
法 。MPI 为 此 提供 了 三 种 方法 : 通信 函数 中 的 count 参数 、 派 生 数 据 类 型 和 MPI_Pack Nnpack 
函数 。 派 生 数据 类 型 是 通过 指定 的 数据 类 型 和 它们 在 内 存 中 的 相对 位 置 来 描述 任意 类 型 集合 的 数 
据 。 在 本 章 中 ， 我 们 还 简单 地 介绍 了 如 何 使 用 MPI_Type_create_struct 建立 派生 数据 类 型 。 
在 习题 中 ， 我 们 将 继续 探讨 其 他 的 方法 ， 并 介绍 MPI_Pack Nnpack。 

当 我 们 为 并 行程 序 计算 运行 时 间 时 ， 我 们 一 般 关 注 经 过 的 总 时 间或 者 叫 “ 墙 上 时 钟 时 间 ”， 
即 运 行 一 段 代码 所 需要 的 时 间 ， 它 包括 用 户 级 代码 、 库 函数 、 用 户 代码 调用 系统 函数 的 运行 时 间 
以 及 空闲 时 间 。 有 两 种 方法 来 获得 该 时 间 : GET_TIME 和 MPI_Wtime。 前 者 是 time. h 定义 的 
宏 ， 可 以 从 本 书 的 网 站 下 载 。 在 串 行 代码 中 的 使 用 方法 如 下 : 


#include “timer.h"” // From the book s website 


double start, finish, elapsed: 


GET_TIME (start): 
/* Code to be timed */ 


GET.TIME (finish); 
elapsed = finish — start: 
printf("Elapsed time = %e seconds\n", elapsed); 


”第 3 章 ， 用 MPI 进行 分 布 式 内 存 编程 ，93 


而 MPI 提供 了 函数 MPI_Wtime 来 取代 GET_TIME。 计 时 并 行程 序 比 串 行 程序 复杂 得 多 ， 在 
理想 情况 下 ， 我 们 想 要 在 代码 的 开头 先 同步 各 个 进程 ， 在 最 慢 的 进程 完成 代码 后 报告 时 间 。MPI_ 
Barrier 项 数 能 非常 方便 地 同步 进程 ， 调 用 它 的 进程 会 阻塞 直到 通信 子 中 的 所 有 进程 都 调用 过 
该 函数 。 使 用 以 下 代码 模板 能 够 计算 MPI 程序 的 运行 时 间 : 


double start, finish, loc-elapsed, elapsed; 


MPI-Barrier(comm) ; 
start = MPI_Wtime(): 
/A* Code to be timed */ 


finish = MPI_Wtimet); 
loc-elapsed = finish 一 start,; 
MPI_Reducel(&loc_elapsed, &elapsed, 1. MPL.DOUBLE, MPI_MAX, 
0, comm): 
if (my-rank == 0) 
printf("Etlapsed time = %e seconds\n", elapsed): 


并 行程 序 计 时 另 一 个 问题 是 ， 多 次 运行 同 段 代码 后 的 计时 结果 变化 很 大 ， 例 如 ， 操 作 系 统 可 
能 有 一 个 或 多 个 进程 空闲 从 而 让 其 他 进程 先 运行 。 因 此 ， 我 们 需要 多 次 运行 后 报告 时 间 最 短 的 
结果 。 

统计 完 时 间 后 ， 可 以 用 加 速 比 或 者 效率 来 估算 程序 的 性 能 。 加 速 比 是 串 行 运行 时 间 与 并 行 运 
行 时 间 之 比 ， 而 效率 是 加 速 比 除 以 进程 总 数 。 加 速 比 的 理想 化 时 间 为 p， 即 进程 数 ， 而 理想 的 效 
率 是 1。 我 们 一 般 不 可 能 获得 这 么 好 的 结果 ， 但 获得 接近 的 结果 还 是 可 能 的 ， 尤 其 是 ， 当 p 较 小 
而 问题 规模 n 比较 大 时 。 并 行 开 销 是 并 行程 序 运行 时 间 的 一 部 分 ， 指 的 是 不 能 被 串 行程 序 执行 的 
额外 时 间 。 在 MPI 程序 中 ， 并 行 开销 来 自 于 通信 ， 当 p 很 大 而 n 较 小 时 ， 并 行 开 销 占据 多 数 的 总 
运行 时 间 是 正常 的 ， 此 时 加 速 比 和 效率 都 很 低 。 增 加 问题 的 规模 (nn) ， 随 着 p 的 增加 ， 效 率 却 没 
有 递减 ， 则 可 以 称 该 并 行程 序 是 可 扩展 的 。 

MPI_Send 既 可 以 阻塞 也 可 以 缓冲 输入 ， 如 果 一 个 MPI 程序 的 正确 行为 取决 于 MPI_Send 正 


在 缓冲 的 输入 ， 则 它 是 不 安全 的 ， 这 经 常 发 生 于 多 个 进程 第 一 次 调用 MPI_Send， 然 后 调用 MPI_ 
Recv 的 情况 。 如 果 调 用 MPI_3end 不 采用 缓冲 方式 ， 那 么 它们 会 一 直 阻 塞 直到 相应 的 MPI_Re- 


cv 被 调用 ， 然 而 这 个 情况 却 永 远 不 会 发 生 ， 例如， 进程 0 和 进程 1 想 要 相互 发 送 数据 ， 两 者 都 先 
发 送 消息 后 再 接收 ， 进 程 0 会 等 待 进程 1 调用 MPI_Recv， 而 进程 1 则 一 直 阻 塞 在 MPI_Send， 
等 待 进程 0 调用 MPI1_Recv。 因 此 ， 进 程 就 死 锁 了 ， 双 方 都 阻塞 并 等 待 永 不 发 生 的 事件 发 生 。 

MPI 程序 能 通过 互相 替换 每 个 MPI_Send 和 MPI_Recv 函数 来 检查 是 否 安 全 。MPI_Ssend 
使 用 与 MPI_Send 相同 的 参数 ， 但 它 一 直 阻 塞 直到 对 应 接收 端 开启 ， 这 个 额外 的 “s” 字 母 代 表 
同步 ， 如 果 使 用 MPI_Ssend 的 MPI 程序 根据 要 求 的 输入 和 通信 规模 正确 地 完成 了 运行 ， 则 该 程 
序 为 安全 的 。 


一 个 不 安全 的 MPI 程序 可 以 通过 多 种 方法 变 为 安全 的 ， 程 序 员 可 以 调度 MPI_Send 和 MPI_ 


Recv 使 某 些 进程 《如 偶数 序号 的 进程 ) 先 调用 MPI_Send， 而 其 他 进程 〈 如 奇数 序号 的 进程 ) 
先 调用 MPI_Recv。 另 外 ， 可 以 使 用 MPI_Sendrecy 或 者 MPI_Sendrecv_replace， 这 些 函 数 
各 发 送 和 接收 一 次 消息 ， 它 们 各 自 保 证 程序 不 会 崩溃 或 死 锁 。MPI_Sendrecv 的 发 送 和 接收 缓冲 
使 用 不 同 的 参数 ,而 MPI_Sendrecv_rep1ace 则 使 用 相同 的 参数 。 


3.9 习题 


3.1 在 问候 程序 中 ， 如 果 strlien(greeting) 代 将 strlen(greeting) +1 来 计算 进程 1、2、…、comm 
_Sz -1 发 送 消息 的 长 度 ， 会 发 生 什 么 情况 ? 如 果 用 MAX_STRING 代替 strlen(greeting)+1 
又 会 是 什么 结果 ? 你 可 以 解释 这 些 结果 吗 ? 
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3.2 


3.3 
3.4 


3.5 


3.6 


3.7 
3.8 


3.9 


改变 梯形 积分 法 ,使 其 能 够 在 comm_sz 无 法 被 n 整除 的 情况 下 ， 正 确 估算 积分 值 ( 假 设 n>comm_ 

SZ)o 

梯形 积分 法 程序 中 哪些 变量 是 局 部 的 ， 哪 些 是 全 局 的 ? 

mpi_output. c 程序 中 ， 每 个 进程 只 打印 一 行 输出 。 修 改 程序 ， 使 程序 能 够 按 进程 号 的 顺序 打印 ， 

即 ， 进 程 0 先 输出 ， 然 后 进程 1， 以 此 类 推 。 

二 叉 树 中 有 着 从 根 到 每 个 结 点 的 最 短路 

径 ， 这 条 路 径 的 长 度 称 为 该 结 点 的 深度 。 

每 一 个 非 叶 子 结 点 都 有 2 个 子 结 点 的 二 

叉 树 叫做 满 二 叉 树 ， 每 个 叶子 结 点 深度 

都 相同 的 满 二 叉 树 称 为 完全 二 叉 树 。 如 

图 3-14 所 示 ， 用 数学 推导 证 明 : 如 果 了 

是 一 棵 有 着 n 个 叶子 结 点 的 完全 二 又 树 ， 

那么 叶子 结 点 的 深度 为 log。(n)。 

假设 comm_sz =4, x 是 一 个 拥有 n=14 

个 元 素 的 向 量 

a. 如 何 用 块 划分 法 在 一 个 程序 的 进程 间 
分 发 x 的 元 素 。 

b. 如 何 用 循环 划分 法 在 一 个 程序 的 进程 间 分 发 x 的 元 素 。 

c. 如 何 用 2 =2 大 小 的 块 用 块 - 循环 划分 法 在 一 个 程序 的 进程 间 分 发 x 的 值 。 

你 的 分 配方 法 应 该 通用 性 足够 强 ， 无 论 comm_sz 和 4 取 何 值 都 能 分 配 。 你 应 该 使 你 的 分 配 “ 公 正 ”， 

如 果 g 和 7 是 任意 的 2 个 进程 ,分 给 g 和 7 的 x 分 量 个 数 的 差 应 尽 可 能 小 。 

如 果 通 信子 只 包含 一 个 进程 ， 不 同 的 MPI 集合 通信 函数 分 别 会 做 什么 。 

假定 Comm_sz =8, n=16。 

a 画 一 张 图 来 说 明 进程 0 要 分 发 n 个 元 素 的 数组 ， 怎 样 使 用 拥有 comm_sz 个 进程 的 树 形 结构 的 通信 
来 实现 MPI_Scatter。 

b. 画 一 张 图 来 说 明 原 先 分 布 在 comm_sz 个 进程 间 的 n 个 数组 元 素 由 进程 0 保存 ， 怎 样 使 用 树 形 结构 
的 通信 来 实现 MPI_Gather。 

编写 一 个 MPI 程序 实现 向 量 与 标量 相 乘 以 及 向 量 点 积 的 功能 。 用 户 需 要 输入 2 个 向 量 和 一 个 标量 ， 都 

由 进程 0 读 人 并 分 配给 其 他 进程 ， 计 算 结 果 由 进程 0 计算 和 保存 ， 并 最 终 由 进程 0 打印 出 来 。 假 定向 

量 的 秩 可 以 被 comm_sz 整除 。 


图 3-14 一 棵 完全 二 叉 树 


3.10 程序 3.9 的 Read_vector 函数 中 ， 实 际 上 使 用 了 iocal_n 作为 MPI_Scatter 的 2 个 形式 参数 


3.11 


send_count 和 recv_count， 为 什么 程序 仍然 能 正常 运行 ? 
求 n 个 数 和 的 表达 式 为 : 
Xo +t KI + tN] 
这 nn 个 数值 的 前 缀 和 (prefix sum) 是 nn 个 部 分 和 : 
Xo, MXo 二 Mi，Xo 十 Mi 十 Ma Xp 十 %i 十 "十 Xi-1 
求 前 统 和 事实 上 是 求 数值 总 和 的 一 般 化 ， 它 不 只 求 出 n 个 值 的 总 和 。 
a 设计 一 个 串 行 算法 来 计算 = 个 元 素数 组 的 前 缀 和 。 
b. 在 有 个 进程 的 系统 上 并 行 化 (a) 小 题 中 设计 的 串 行 程序 ， 每 个 进程 存储 一 个 x_i 值 。 
c 设 m=2 ,大 为 正 整数 。 设 计 一 个 串 行 算法 ， 然 后 将 该 算法 并 行 化 ， 使 得 这 个 并 行 算法 仅 需要 丰 个 
通信 阶段 。 
d.，MPI 提供 一 个 集合 通信 函数 MPI_Scan ， 用 来 计算 前 级 和 ; 
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int MPI_Scant 


Yoid* sendbuf-p /A* in +*/, 
void* recvbuf-P /x¥ Out #*/, 
int count /x In ww/, 
MPI-Datatype datatype /x In */, 
MPI-0p op /* jn #*/, 
MPI_-Comm comm /本 in x*/): 


该 函数 对 有 count 个 元 素 的 数组 进行 操作 ，sendbuf_p 和 recvbuf_p 都 应 该 指向 有 count 
个 datatype 类 型 元 素 的 数据 块 。op 参数 和 MPI_Reduce 中 的 op 一 样 。 编 写 一 个 MPI 程序 使 每 
个 MPI 进程 生成 有 count 个 元 素 的 随机 数 数组 ， 计 算 其 前 缀 和 并 打印 结果 。 
可 以 用 环形 传递 来 代替 蝶 形 结构 的 全 归 约 ， 在 环形 传递 结构 中 ， 如 果 有 5p 个 进程 ， 每 个 进程 9 向 进程 
9 +1 发 送 数 据 (进程 p -1 向 进程 0 发 送 数据 ) 。 这 一 过 程 持续 循环 直至 所 有 进程 都 获得 理想 的 结果 。 
我 们 可 以 用 以 下 代码 实现 全 归 约 : 
Sum = temp-val = my.val; 
for (i = 1; i < p; i++ tf 
MPI.Sendrecv.replace(&temp_val, 1, MPI_INT, dest, 
sendtag, source, recvtag, comm, &status):; 
sum += temp-val: 
} 
a. 编写 一 个 MPI 程序 实现 这 一 算法 。 与 蝶 形 结构 的 全 归 约 相 比 ， 它 的 性 能 如 何 ? 
b， 修 改 刚才 的 程序 ， 实 现 前 缀 和 的 运算 。 
MPI_Scatter 和 MPI_Gather 存在 一 些 限制 ， 即 每 个 进程 必须 发 送 或 者 接收 同样 数量 的 数据 。 如 果 
不 这 样 的 话 ， 就 必须 改 用 MPI_Gatherv 和 MPI_Scattery 这 两 个 MPI 函数 。 查 看 这 些 函 数 的 帮助 
手册 ， 修 改 你 的 计算 向 量 和 、 向 量 点 积 程序 使 其 能 够 处 理 n 不 被 comm_sz 整除 的 情况 。 
a 编写 一 个 串 行 的 C 程序 ， 在 主 函数 中 定义 一 个 二 维 数组 ， 使 用 以 下 给 出 的 变量 : 


int two.d[31[4]; 


在 主 函 数 中 初始 化 该 数组 ， 然 后 调用 函数 打印 其 值 。 打 印 函 数 的 原型 应 该 如 下 所 示 。 


void Print_twod(int two_d[ JL], int rows, int cols); 


编写 完 后 请 尝试 编译 程序 ， 你 能 够 解释 为 什么 该 程序 无 法 通过 编译 吗 ? 
b. 参考 C 语言 教程 (如 Kemighan 和 Ritchie [29] ) 修改 程序 后 ， 使 其 能 够 顺利 编译 并 运行 ， 它 仍然 
使 用 一 个 2 维 的 C 数组 。 
我 们 在 2.2.3 节 讨 论 的 二 维 数组 ， 它 的 “ 行 优先 ”存储 与 3.4.9 节 所 提 到 的 以 一 维 数组 存储 有 什么 
联系 ? 
假定 comm_sz =8、 向 量 x= (0，1，2，…，15), 通过 块 划 分 方法 分 配 x 给 各 个 进程 ， 画 图 表示 用 
蝶 形 通信 结构 实现 聚集 x 的 步骤 。 
MPI_Type_contiguous 可 以 从 数组 中 收集 邻接 元 素 ， 然 后 创建 派生 数据 类 型 。 它 的 语法 是 : 


int MPI-Type-ccentiguous( 
int count /x IN */, 
MPI_Datatype old_mpi.t [kk in */, 
MPI_Datatype* new-mpi_t.p /x* Out *); 


修改 Read_vector 和 Print_vector 函数 ， 让 它们 能 够 使 用 一 种 MPI 的 数据 类 型 ， 这 个 数据 类 型 
是 通过 调用 MPI_Type_contiguous 生成 的 ,在 调用 MPI_Scatter 和 MPI_Gather 函数 时 ， 
count 参数 的 值 为 1。 

MPI_Type_vector 可 以 用 来 将 数组 中 的 数据 块 组 合 起 来 构建 派生 数据 类 型 ， 这 些 块 大 小 相同 ， 在 数 
组 中 的 间隔 是 等 距 的 。 它 的 语法 是 : 


int MPI-Type-vector 
int count /kk in x*/, 
int blocklength AL in #/, 
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int stride /Ax in #*/, 
MPI_Datatype oldmpi_t / iN */, 
MPpI_Datatype* new_mpi_t_p /* Out */) 


例如 ， 含 有 18 个 double 类 型 数据 的 数组 x， 我 们 想 建 立 一 个 数据 类 型 ， 对 应 0、1、6、7、12、13 
位 置 的 元 素 ， 则 可 以 调用 : 
int MPpI_Type_vector(3, 2, 6, MPI_DOUBLE, &vect.mpi.t); 


总 共 分 为 3 个 数据 块 ， 每 块 有 2 个 元 素 ， 且 每 块 间 的 间隔 为 6 个 double 型 元 素 。 

请 编写 Read_vector 和 Print_vector 函数 ， 使 进程 0 读 取 和 打印 以 块 -循环 划分 方法 分 割 的 
向 量 。 但 是 要 注意 : 不 要 使 用 MPI_Scatter 或 者 MPI_Gather 也 数 ， 用 这 两 个 郊 数 操作 由 
MPI_Type_vector 创建 的 类 型 会 引起 一 个 技术 性 问题 ( 详 见 [23] ) 。 进 程 0 的 Read_vector 只 
是 循环 地 发 送 数据 ， 进 程 0 的 Print_vector 只 循环 地 接收 数据 。 其 余 的 进程 通过 调用 一 次 MPI_ 
Recv 和 MPI_Send 就 能 完成 它们 对 Read_vector 和 Print_vector 的 调用 。 进 程 0 应 该 使 用 由 
MPI_Type_vector 生成 的 数据 类 型 ， 其 他 进程 只 使 用 count 作为 参数 传递 给 通信 画 数 ， 因 为 它们 
正在 接收 /发 送 的 元 素 将 会 被 连续 地 存储 在 数组 中 。 

MPI_Type_indexed 肾 数 可 以 用 来 建立 取 自任 意 数 组 元 素 的 派生 数据 类 型 。 它 的 语法 为 ， 

int MPI_Type_indexedt 


int count /kk in */, 
int array-of.blocklengths[] /Ak In */, 
int array_ofdisplacements[] /x in x*/, 
MPI_Datatype old_mpi_t /A* iNn */, 
MPI_Datatype* new_mpi_t.p) /* OUt */): 


与 MPI_Type_create_struct 不 同 ，MPI_Type_indexed 函数 中 使 用 01d_mpi_t 类型， 而 不 是 
字 节 来 作为 偏 移 量 的 单位 。 请 用 MPI_Type_indexed 创建 一 个 派生 数据 类 型 ， 对 应 于 一 个 和 矩阵 的 上 
三 角 部 分 的 数据 。 如 4 x4 矩阵 ， 


0 1 2 3 
4 5 6 7 
8 9 10 11l 
12 13 14 15 


上 三 角 部 分 的 元 素 分 别 为 0、1、2、3、5、6、7、10、11、15。 进 程 0 以 读 取 一 维 数组 的 方式 读 人 nn 
xn 和 矩阵， 创建 派生 的 数据 类 型 ， 并 通过 调用 一 次 MPI_Send 发 送 和 矩阵 的 上 三 角 部 分 。 进 程 1 通过 调 
用 MPI_Recv 接收 这 部 分 数据 并 打印 。 

函数 MPI_Pack 和 MPI_Unpack 提供 了 从 分 组 数据 中 产生 派生 数据 类 型 的 另 一 种 方法 。MPI_ 
Pack 每 次 复制 一 块 要 发 送 的 数据 到 用 户 提供 的 缓冲 区 ， 该 缓冲 区 既 可 以 接收 数据 也 可 以 发 送 数据 。 
当 接 收 到 数据 后 ， 可 以 使 用 MPI_Unpack 将 接收 缓冲 区 中 的 数据 解 包 。MPI_Pack 的 语法 为 : 

int MPI-Pack( 


Void# in-buf /* in 水 / ， 
int in_buf_count /* in */ 
MPI-Dataetype datatype /* in 水 / ， 
void* pack-buf /*# Out */, 
int pack-buf-sz Ag In 水 / ， 
intx position-p /* iIn/out */, 
MPTI_Comm Comm As in */); 


可 以 用 下 面 的 代码 打包 梯形 积分 法 程序 的 输入 数据 : 


char pack-buf[100]; 
int position = 0; 


MPI_Pack(&a, 1, MPI_.DOUBLE, pack_buf, 100, &position, comm); 
MPI_Pack(&b, 1, MPI_DOUBLE, pack-buf, 100, &position, comm); 
MPpIPack(&n, 1, MPI_INT, pack-buf , 100, &position, comm); 


3.21 


3.23 
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关键 是 pos ition 参数 ， 当 调用 MPI_Pack 时 ,该 参数 应 该 指向 pack_buf 中 第 一 个 可 访问 元 素 的 
位 置 ; 当 MPI_Pack 返回 时 ， 该 参数 指向 pack_buf 在 数据 打包 后 第 一 个 可 以 被 访问 的 位 置 。 所 
以 ， 当 进程 0 执行 这 段 代 码 时 ， 所 有 进程 可 以 调用 MPI_Bcast: 

MPIBcast(pack_buf, 100, MPI_PACKED, 0, comm); 


注意 ， 用 于 表示 打包 缓冲 区 的 MPI 数据 类 型 是 MPI_PACKED。 现 在 ， 除 了 进程 0 以 外 ， 其 他 进程 都 
可 以 用 MPI_Unpack 来 解 包 数据 : 


int MPI_Unpackt 


voidx pack_buf /# 了 本 1 ， 
int pack-buf_sz /x in */， 
intx position-p /# ihn/out */， 
void* Out_-buf /* Out */， 
int out-buf-count AZ in */ ， 
MPI-Datatype datatype /*# in */， 
MPI-Comm Comm /* in */ ); 


MPI_Unpack 函数 以 MPI_Pack 相反 的 步骤 进行 操作 ， 从 position =0 的 位 置 一 块 块 解压 数据 。 

请 为 梯形 积分 法 编写 另 一 个 Get_input 函数 ， 该 函数 需要 在 进程 0 上 使 用 MPI_Pack 函数 ， 并 在 
其 他 进程 上 使 用 MPI_Unpack 函数 。 

你 的 系统 和 我 们 的 系统 比较 起 来 有 哪些 差别 ? 你 的 矩阵 - 向 量 乘法 程序 的 运行 时 间 是 多 少 ? 给 定 
comm_sz 和 的 值 后 时 间 上 有 什么 变化 ”结果 集中 在 最 小 值 、 平 均值 还 是 中 位 数 附 近 ? 

使 用 MPI_Reduce 执行 梯形 积分 法 的 程序 并 统计 运行 时 间 。 你 怎样 选择 梯形 的 数量 n? 比较 一 下 最 
小 运行 时 间 、 平 均 运 行 时 间 以 及 运行 时 间 中 位 数 。 加 速 比 和 效率 分 别 如何 ? 基于 你 选择 的 数据 ， 你 
认为 梯形 积分 法 是 可 扩展 的 吗 ? 

尽管 我 们 不 知道 MPI_Reduce 的 内 部 具体 实现 , 但 我 们 猜测 它 使 用 了 类 似 二 叉 树 的 结构 。 如 果 确 实 
如 此 ， 我 们 认为 它 的 运行 时 间 以 log, (p) 的 速率 递增 ,因为 二 叉 树 有 大 约 log,(p) 层 (p= comm_ 
Sz )。 申 行 梯形 积分 法 程序 的 运行 时 间 与 梯形 的 个 数 n 成 正比 ， 并 行程 序 简单 地 为 每 个 进程 分 配 n/p 
个 梯形 ， 每 个 进程 采用 串 行 计算 的 方法 处 理 它们 分 配 到 的 wp 个 梯形 ， 然 后 使 用 MPI_Reduce 将 各 
个 进程 的 计算 结果 进行 归 约 求 总 和 。 我 们 获得 了 一 个 统计 并 行 梯 形 积分 程序 的 总 运行 时 间 公 式 : 


Ta (np) ~a* +bloga (p) 


a 和 5 为 常数 。 

a. 使 用 上 述 公 式 、 习题 3. 22 中 的 计时 以 及 你 常用 的 数值 计算 程序 (如 MATLAB) ， 通 过 最 小 二 乘法 
估计 a 和 b 的 值 。 

b. 使 用 上 面 的 公式 和 (a) 小 题 中 估计 到 的 ec、 值 来 计算 运行 时 间 ， 评价 这 种 估算 运行 时 间 方 法 的 
准确 度 。 


看 看 编程 作业 3.7， 计 算 发 送 消息 开销 的 代码 应 该 在 count 参数 为 0 的 情况 下 也 能 正常 运行 。 在 你 
系统 上 ， 当 count =0 时 ,会 发 生 什么 情况 ? 你 能 解释 为 什么 发 送 0 字 节 的 数据 仍然 会 有 非 0 的 时 间 
开销 吗 ? 

如 果 comm_sz =p， 我 们 认为 理想 的 加 速 比 是 p， 有 没有 可 能 得 到 更 好 的 结果 ? 

a 一 个 计算 向 量 求 和 的 并 行程 序 ， 如 果 只 计时 向 量 相 加 的 部 分 〈 即 不 管 输入 和 输出 的 时 间 ) ， 那 么 怎 
样 才能 使 程序 获得 比 更 好 的 加 速 比 ? 

b. 程序 若 能 够 取得 高 于 2 的 加 速 比 ， 则 称 为 超 线性 加 速 比 。 我 们 的 向 量 求 和 程序 只 有 克服 “资源 限 
制 ” 才 能 获得 超 线 性 加 速 比 。 有 哪些 资源 限制 ? 程序 有 可 能 在 不 克服 资源 限制 的 情况 下 获得 超 线 
性 加 速 比 吗 ? 

串 行 的 奇偶 交换 排序 算法 排序 一 个 ”元素 列表 时 ， 所 用 阶段 数 远 远 小 于 n。 作为 “个 极端 的 例子 ， 如 

果 和 输入 的 列表 已 经 完全 排 好 序 了 ， 算 法 只 需要 0 个 阶段 。 

a. 编写 一 个 串 行 1s_sorted 函数 来 探测 输入 列表 是 否 已 经 排序 。 
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b. 修改 串 行 奇偶 交换 排序 算法 ， 使 其 在 每 个 阶段 能 够 检测 列表 是 否 已 经 排 完 序 。 

c. 如 果 列 表 中 的 = 个 元 素 是 随机 产生 的 ， 那 么 检查 列表 是 否 已 经 排 好 序 的 步骤 使 得 算法 中 的 哪个 部 
分 能 获得 性 能 改进 ? 

计算 并 行 奇偶 排序 算法 的 加 速 比 和 效率 ， 程 序 能 获得 线性 加 速 比 吗 ? 是 可 扩展 的 吗 ? 是 强 可 扩展 的 

还 是 弱 可 扩展 的 ? 

修改 并 行 奇偶 交换 排序 算法 ， 使 Merge 函数 在 发 现 最 小 或 最 大 元 素 后 只 是 简单 地 交换 数组 指针 ， 请 

问 这 一 改变 对 于 整体 的 运行 时 间 会 有 怎样 的 影响 ? 


3. 10 ”编程 作业 


3.1 


3.2 


3.3 


3.4 


3.5 


3.6 


3.7 


3.8 


使 用 MPI 实现 2.7. 1 节 讨 论 的 直方 图 程序 ， 进 程 0 读 取 输 入 的 数据 ， 并 将 它们 分 配 到 其 余 进 程 ， 最 后 
进程 0 打印 该 直方 图 。 

假设 我 们 向 一 个 正方 形 飞镖 板 随 机 地 投掷 飞镖 ， 飞 镖 板 的 边 长 为 2 英尺 ， 靶 心 在 正中 央 。 再 在 正方 形 
板 上 画 了 一 个 半径 为 1 英尺 的 圆 ， 面 积 为 平方 英尺 。 如 果 飞 镖 击 中 靶子 后 的 得 分 是 平均 分 布 的 《我 
们 总 能 投 进 正 方形 区 域 ) ， 则 击 中 圆 形 区 域内 的 数量 应 该 大 致 满足 等 式 ; 


击 中 圆 内 的 投掷 次 数 _ 
全 部 的 投掷 次 数 


我 们 可 以 使 用 这 个 公式 配合 随机 数 生成 器 来 估计 "的 值 : 
number-in-circle = 0; 
for (toss = 0; toss < number.of tosses; toss++) { 

x = random double between -1 and 1; 

y = random double between —1 and 1: 

distance_saQuared = x*X + yx*y; 

if (distance_squared ¢= 1) number_in.circlett; 
estimate = 4*number.in.circie/((double) rumber_of_tosses): 
这 称 为 蒙特 卡 洛 方法 ， 因 为 它 使 用 了 随机 特性 〈 飞 镖 投掷 ) 。 
编写 一 个 用 蒙特 卡 洛 方法 估计 7 的 MPI 程序 ， 进程 0 读 人 总 的 投 撕 次 数 ， 并 把 它们 广播 给 各 个 进程 。 
使 用 MPI_Reduce 求 出 局 部 变量 number_in_cycle 的 全 局 总 和 ， 并 让 进程 0 打印 它 。 击 中 国内 部 的 
次 数 和 投掷 总 数 可 能 要 使 用 Long Long int 类 型 的 数值 来 表示 ， 为 了 获得 较 精 确 的 r 估计 值 ， 这 两 个 
数值 应 该 要 大 一 些 。 
编写 一 个 MPI 程序 ， 采 用 树 形 通信 结构 来 计算 全 局 总 和 。 首先 计算 comm_sz 是 2 的 寡 的 特殊 情况 ， 若 
能 够 正确 运行 ， 改 变 该 程序 使 其 适用 于 所 有 comm_sz 的 值 。 
编写 一 个 MPI 程序 ， 用 蝶 形 通信 结构 计算 全 局 总 和 。 首先 计算 comm_sz 是 2 的 每 的 特殊 情况 。 你 能 改 
变 该 程序 使 其 适用 于 任意 数目 的 进程 吗 ? 
实现 矩阵 与 向 量 相 乘 的 程序 ， 其 中 和 矩阵 以 列 为 单位 分 块 。 进 程 0 读 取 输入 的 和 矩阵 ， 然 后 循环 地 向 其 他 
进程 分 发 数据 。 假 定 和 矩阵 是 nxn 和 矩阵，n 能 够 被 comm_sz 整除 。 你 可 能 需要 先 查 看 下 MPI 函数 MPI_ 
Reduce_scatter 的 使 用 方法 。 
实现 nxn 和 矩 阵 与 向 量 相 乘 的 程序 ， 其 中 和 矩阵 以 子 矩 阵 块 为 单位 分 割 。 假 设 向 量 分 布 在 各 个 进程 中 。 
同样 ， 由 进程 0 读 取 整个 矩阵 ， 将 矩阵 分 块 为 子 矩 阵 后 发 送 给 其 余 进 程 。 假 设 comm_sz 是 个 完全 平 
方 数 ， 且 Vcomm_sz 能 整除 矩阵 的 阶 n。 
ping-pong 是 一 种 通信 ， 数 据 从 进程 A 传送 到 进程 B (ping) 、 然 后 又 传送 回 进程 A (pong) 。 统 计 一 段 
间隔 内 重复 ping-pong 的 次 数 是 估计 发 送 消 息 所 需 开 销 的 常见 方法 。 在 你 的 系统 上 用 C 语言 的 clock 
函数 统计 一 个 ping-pong 程序 的 运行 时 间 ， 在 clock 函数 给 出 非 0 的 运行 时 间 前 ， 程 序 需要 运行 多 久 ? 
用 cl1ock 函数 得 到 的 计时 结果 与 从 MPI_Wtime 函数 得 出 的 时 间 相 比 ， 有 怎样 的 区 别 ? 
并 行 妇 并 排序 (merge sor) 程序 在 开始 时 , 会 将 n/comm_sz 个 键 值 分 配给 每 个 进程 ， 程 序 结束 时 ， 
所 有 的 键 值 会 按 顺 序 存 储 在 进程 0 中 。 为 了 做 到 这 点 ， 它 使 用 了 我 们 在 计算 全 局 总 和 程序 中 所 用 到 的 


人 
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树 形 结构 通信 模式 。 当 进程 接收 到 另 一 个 进程 的 键 值 时 ， 它 将 该 键 值 合并 进 自 己 排 完 序 的 键 值 列表 

中 。 编 写 一 个 程序 实现 并 行 归并 排序 。 进 程 0 应 该 读 人 的 值 ， 将 其 广播 给 其 余 进程 。 每 个 进程 需要 

使 用 随机 数 生成 器 来 创建 wcomm_sz 的 局 部 int 型 数据 列表 。 每 个 进程 先 排序 各 自 的 局 部 列表 ， 然 
后 进程 0 收集 并 打印 这 些 局 部 列表 。 然 后 ， 这 些 进程 使 用 树 形 结构 通信 合并 全 局 列表 给 进程 0， 并 打 
印 最 终结 果 。 

编写 一 个 程序 来 说 明 改 变数 据 结 构 的 分 配方 式 所 需要 的 代价 。 向 量 的 分 割 方式 从 块 划 分 变 为 循环 划 

分 ， 需 要 花 多 长 时 间 ? 反 过 来 呢 ? [I 条 
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从 程序 员 角 度 看 ， 共 享 内 存 系统 中 的 任意 处 理 器 核 都 能 够 访问 所 有 的 内 存 区 域 ( 见 图 4-1)。 
因此 ， 协 调 各 个 处 理 器 核 工作 的 一 个 方法 ， 就 是 把 某 个 内 存 区 域 设 为 “共享 "， 这 是 并 行 编程 中 
常见 的 方法 。 确 实 ， 你 可 能 会 产生 疑问 : 为 什么 不 让 所 有 的 并 行程 序 都 使 用 共享 内 存 的 编程 方 
法 。 在 本 章 中 ,我 们 会 看 到 由 共享 内 存 引 起 的 一 些 问题 ,这些 问 题 与 在 分 布 式 系统 中 遇 到 的 问题 
不 同 。 








图 4-1 一 个 共享 内 存 系 统 


例如 ， 在 第 2 章 中 我 们 看 到 ， 如 果 不 同 的 处 理 器 核 尝试 更 新 共享 内 存 区 域 上 同一 位 置 的 数 
据 ， 那 么 会 导致 共享 区 域 的 内 容 无 法 预测 。 我 们 把 对 共享 内 存 区 域 进行 更 新 的 代码 段 称 为 临界 区 
(critical section) 。 在 本 章 中 ,我 们 会 看 到 临界 区 的 一 些 实 例 ， 并 学 习 控 制 临界 区 访问 的 一 些 
方法 。 

我 们 还 将 讨论 共享 内 存 编程 的 其 他 问题 和 技巧 。 在 共享 内 存 编程 中 ， 运 行 在 一 个 处 理 器 上 的 
一 个 程序 实例 称 为 线程 〈 不 同 于 MPI， 在 MPI 中 称 为 进程 ) 。 我 们 学 习 如 何 同步 线程 ， 让 每 个 线 
程 在 其 他 线程 完成 其 他 工作 前 等 待 ; 我 们 学 习 如 何 让 一 个 线程 进入 睡眠 状态 直到 某 个 条 件 被 触 
发 。 我 们 将 遇 到 一 些 情况 ， 如 临界 区 很 大 。 然 而 ， 我 们 看 到 ， 借 助 某 些 工具 ， 可 以 对 大 型 代码 段 
进行 颗粒 化 分 析 和 访问 ， 从 而 让 程序 中 更 多 的 部 分 得 以 并 行 化 。 我 们 看 到 ， 使 用 高 速 缓存 实 际 上 
会 使 共享 内 存 程序 的 性 能 降低 。 最 后 ， 我 们 还 看 到 ， 在 连续 的 调用 之 间 “ 维 持 状态 " ， 可 能 会 导 
致 不 一 致 甚至 错误 的 结果 。 

本 章 使 用 POSIX@ 线程 库 来 实现 共享 内 存 的 访问 。 第 5 章 介 绍 另 一 个 共享 内 存 编程 方法 ; 
OpenMP 。 


4.1 进程、 线程 和 Pthreads 


回忆 第 2 章 谈 到 的 共享 内 存 编程 ， 线 程 在 一 定 程度 上 与 MPI 的 进程 类 似 。 然 而 ,大体 上 , 它 
3D 是 轻 量 级 的 进程 。 进 程 是 正在 运行 (或 挂 起 ) 的 程序 的 一 个 实例 ， 除 了 可 执行 代码 外 ， 它 还 
包括 : 
。 栈 段 。 
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。 堆 段 。 

。 系统 为 进程 分 配 的 资源 描述 符 ， 如 文件 描述 符 等 。 

。 安全 信息 ， 如 进程 允许 访问 的 硬件 和 软件 资源 。 

。 描述 进程 状态 的 信息 ， 如 进程 是 否 准 备 运 行 或 者 正在 等 待 某 个 资源 ， 寄 存 器 中 的 内 容 

(包括 程序 计数 器 数值 ) 等 。 

在 大 多 数 系统 中 ， 在 默认 状态 下 ， 一 个 进程 的 内 存 块 是 私有 的 : 其 他 进程 无 法 直接 访问 ， 除 
非 操 作 系 统 进行 干涉 。 这 么 设计 是 有 意义 的 。 如 果 正 在 使 用 文档 编辑 器 写 程序 (一 个 运行 文档 编 
辑 器 的 进程 ) ， 肯 定 不 希望 浏览 器 ( 另 一 个 进程 ) 覆盖 文档 编辑 器 正 使 用 的 内 存 数 据 。 这 一 设计 
在 多 用 户 环境 下 更 为 重要 ， 一 个 用 户 的 进程 是 绝对 不 允许 访问 其 他 用 户 进程 拥有 的 内 存 的 。 

然而 ， 这 些 并 不 是 我 们 在 运行 共享 内 存 程序 时 所 需要 的 。 最 低 限度 下， 我 们 希望 有些 数据 对 
多 个 进程 都 是 可 用 的 。 因此， 典型 的 共享 内 存 “ 进程 ”允许 了 进程 间 互 相 访 问 各 自 的 内 存 区 域 。 
它们 也 经 常 共享 一 些 区 域 ， 例 如 共享 对 stdout 的 访问 。 事 实 上， 除了 它们 各 自 拥 有 独立 的 栈 和 
程序 计数 器 外 ， 为 了 方便 ， 它 们 基本 上 可 以 共享 所 有 其 他 区 域 。 为 了 方便 管理 ， 一 般 采 用 的 方法 
是 : 启动 一 个 进程 ， 然 后 由 这 个 进程 生成 这 些 “ 轻 量 级 ”进程 。 轻 量 级 进程 由 此 得 名 。 

更 通用 的 术语 是 线程 ， 它 来 自 于 “控制 线程 ”的 概念 ， 控 制 线程 是 程序 中 的 一 个 语句 序列 。 
建议 在 单个 进程 中 使 用 术语 控制 流 在 共享 内 存 的 程序 中 ， 一 个 进程 中 可 以 有 多 个 控制 线程 。 

我 们 之 前 提 到 ， 本 章 使 用 的 是 POSIX 线程 库 ， 也 经 常 称 为 Pthreads 线程 库 。POSIX [41] 是 
一 个 类 Unix 操作 系统 (如 Linux、Mac 0S X) 上 的 标准 库 。 它 定义 了 很 多 可 以 运行 于 这 些 系统 上 
的 功能 ， 尤 其 是 它 定 义 了 一 套 多 线程 编程 的 应 用 程序 编程 接口 。 

Pthreads 不 是 编程 语言 (如 C 或 Java) ， 而 是 与 MPI 一 样 ， 它 拥有 一 个 可 以 链接 到 C 程序 中 
的 库 。 与 MPI 不 同 的 是 ，Pthreads 的 API 只 有 在 支持 POSIX 的 系统 (Linux、Mac 0S X、Solaris 、 
HPUX 等 ) 上 才 有 效 。 与 MPI 不 同 的 是 ， 广 泛 使 用 的 多 线程 编程 还 有 很 多 ， 如 Java threads 、Win- 
dows threads 、Solaris threads。 所 有 的 线程 库 标 准 都 支持 一 个 基本 的 概念 ， 即 一 旦 学 会 了 如 何 使 用 
Pthreads 进行 程序 的 开发 ， 学 习 其 他 线程 API 就 很 轻松 了 。 

因为 Pthreads 是 一 个 C 语言 库 ， 所 以 也 可 以 用 在 C++ 程序 中 。 然 而 ， 标 准 的 C ++ 共享 内 存 
线程 库 (C++0x) 仍 在 开发 中 ， 也 许 将 来 在 C ++ 程序 中 ， 使 用 这 个 线程 库 比 使 用 Pthreads 库 更 
合适 。 

4.2 “Hello，World” 程序 

先 来 看 一 个 Pthreads 程序 。 在 程序 4-1 中 ， 主 函数 启动 了 多 个 线程 ， 每 个 线程 打印 一 条 消息 ， 
然后 退出 。 
4.2.1 执行 

编译 该 程序 的 方法 与 编译 普通 的 C 程序 是 一 样 的 。 区 别 在 于 ,需要 链接 Pthreads 线程 库 : 9 

$ gcc -9 -Wall -0 pth.hello pth_hello.c -ipthread 


-1pthread 告诉 编译 器 ,我 们 要 链接 Pthreads 线程 库 。 注意 , 是 - 1pthread 而 不 是 - 
1pthreads。 在 某 些 系统 上 ， 无 需 加 - 1pthread 选项 编译 器 也 会 自动 链接 到 该 库 。 
要 运行 编译 好 的 程序 ， 只 要 键 人 


$ ./pth_hello <number of threads> 


日 、 美 元 符号 $ 是 shell 提示 符 ， 这 个 符号 是 系统 自 带 的 ， 用 户 不 必 输 入 。 同 时 为 了 清晰 性 ， 假 定 使 用 Gnu 的 C 编译 
器 gcc， 并 且 一 直选 择 选 项 -g9、-Wall 和 -0。. 详 见 2.9 节 。 
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102， 并 行程 序 设 计 导 论 


程序 4-1 一 个 Pthreads“Hello，World” 程 序 








#include 《stdio.h> 


1 
2 #include “stdlib.h> 
3 #include <pthread.n> 
4 
5 /# Global variable: accessible to aiil threads */ 
6 int thread_count: 
7 
8 void*# Heilo(voidx rank); /x Thread function */ 
9 
I0 int main(int argc. char* argy[1) { 
1 1ong thread; /x Use iong in case of 8 64—bit system */ 
12 pthread_tx thread_handies,; 
13 
1+ /*# Get number of threads from commangd Tine */ 
1S thread_count = strtoi{argv[1], NYULL, 10); 
16 
17 thread_handies = malloc (thread.count#sizeof({pthread._t)): 
18 
19 for (thread = 0; thread < thread_count ; thread++) 
20 pthread.create(&thread_handles[thread]}, NULL, 
21 Helio, (void*#) thread); 
22 
23 printf("Hello from the main thread\n"),; 
?4 
25 for (thread = 0; thread ¢ thread_count; thread++} 
26 pthread.join(thread_handies[thread], NULL); 
27 
28 free(threadhandles); 
29 return 0: 
30 |} /A/# Mmain */ 
31 
32 voidx* Hello(void* rank} 1 
33 1ong my-rank = (long) rank 
/* Use 10n9 in case of 64d—hbit system */ 
对 
35 printf("Hello from thread %1d of ¥d\n", my-rank, 
thnread_count ); 
36 
37 return NULL : 


38 } /x Hello sy/ 








例如 ， 运 行 只 有 一 个 线程 的 程序 ， 键 和 人: 


$ ./pth_hello 1 


输出 类 似 于 : 


Hello from the main thread 
Hello from thread 0 of 1 


运行 4 个 线程 的 程序 ， 键 人 : 


$ ./pth-he110 4 


输出 类 似 于 : 


Hello from the main thread 
Hello from thread 0 of 4 
Hello from thread 1 of 4 
Hello from thread 2 of 4 
Hello from thread 3 of 4 


4. 2.2 准备 工作 

我 们 仔细 研究 程序 4-1 的 人 代码。 首先， 我们 注意 到 ， 这 个 简单 的 C 程序 只 有 main 函数 和 另 
一 个 函数 。 程 序 中 包含 了 我 们 熟悉 的 stdio. h 和 std1ib. h 两 个 头 文件 ， 也 有 一 些 新 增 的 不 同 
之 处 。 程 序 的 第 3 行 包 含 了 pthread.n 头 文件 ， 这 是 Pthreads 线程 库 的 头 文 件 ， 用 来 声明 
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Pthreads 的 函数 、 常 量 和 类 型 等 。 

第 6 行 定 义 了 一 个 全 局 变量 thread_count。 在 Pthreads 程序 中 ， 全 局 变量 被 所 有 线程 所 共 
享 ， 而 在 函数 中 声明 的 局 部 变量 则 (通常 ) 由 执行 该 函数 的 线程 所 私有 。 如 果 多 个 线程 都 要 运行 
同一 个 函数 ， 则 每 个 线程 都 拥有 自己 的 私有 局 部 变量 和 函数 参数 的 副本 。 如 果 每 个 线程 都 有 自己 
私有 的 栈 ， 那 么 这 种 设计 是 合理 的 。 

需要 记 住 的 一 点 是 ， 全 局 变量 可 能 会 在 程序 中 引发 令 人 困惑 的 错误 。 例 如 ， 我 们 写 一 个 有 全 
局 变量 int x 的 程序 ， 函 数 f 内 也 有 一 个 名 为 x 的 局 部 变量 ,但 我 们 却 忘 了 在 函数 中 声明 这 个 局 
部 变量 x。 编 译 时 是 不 会 有 错误 或 者 警告 出 现 的 ， 因 为 函数 f 有 权 访 问 全 局 变量 x。 然 而 在 运行 
时 ， 程 序 却 输出 了 奇怪 的 结果 ， 这 是 由 全 局 变量 x 引起 的 。 过 了 几 天 ， 我 们 才 发 现 导致 全 局 变量 
x 有 奇怪 值 的 原因 出 自 函 数 f。 根 据 经 验 法 则 ， 应 该 限制 使 用 全 局 变量 ， 除 了 确实 需要 用 到 的 情 
况 外 ， 比 如 线程 之 间 共 享 变量 。 

程序 中 的 第 15 行 表 示 从 命令 行 中 读 取 需 要 生成 的 线程 数目 。 不 同 于 MPLI，Pthreads 程序 和 普 
通 串 行程 序 一 样 ， 是 编译 完 再 运行 。 将 命令 行 参 数 作为 输入 值 传 人 程序 ， 由 此 来 确定 线程 的 数目 
不 失 为 一 种 简单 方便 的 方法 ， 但 也 并 不 仅仅 局 限于 这 一 种 方法 。 

strtol 函数 的 功能 是 将 字符 串 转化 为 1ong int (长 整 型 ), 它 在 std] ib. h 中 声明 ， 它 的 
语法 形式 为 : 


1ong Strtol1( 
const char* number-p /A* in a*/, 
Char** end-p /* OUt */, 
int base /x Nn /1 


它 返 回 由 number_p 所 指向 的 字符 串 转换 得 到 的 长 整 型 数 ， 参 数 base 是 表达 这 个 整数 值 所 用 
的 基 〈 进 位 计数 制 ) 。 如 果 end_p 不 是 NULL， 它 就 指向 number_p 字符 串 中 第 一 个 无 效 字 符 
( 非 数 值 字符 ) 。 


4.2.3 启动 线程 

正如 我 们 已 经 提 到 的 ，Pthreads 不 同 于 MPI 程序 ， 它 不 是 由 脚本 来 启动 的 ， 而 是 直接 由 可 执 
行程 序 启动 。 这 样 会 增加 一 些 复杂 度 ， 因 为 我 们 需要 在 程序 中 添加 相应 的 代码 来 显 式 地 启动 线 
程 ， 并 构造 能 够 存储 线程 信息 的 数据 结构 。 

代码 第 17 行为 每 个 线程 的 pthread_t 对 象 分 配 内 存 ，pthread_t 数据 结构 用 来 存储 线程 
的 专 有 信息 ， 它 由 pthread. h 声明 。 

pthread_t 对 象 是 一 个 不 透明 对 象 。 对 象 中 存储 的 数据 都 是 系统 绑 定 的 ， 用 户 级 代码 无 法 
直接 访问 到 里 面 的 数据 。Pthreads 标准 保证 pthread_t 对 象 中 必须 存 有 是 够 多 的 信息 ， 足 以 让 
pthread_t 对 象 对 它 所 从 属 的 线程 进行 唯一 标识 。 例 如 : Pihreads 有 一 个 库 函 数 ， 利 用 这 个 函数 
可 以 让 线程 取得 它 的 专 有 pthread_t 对 象 ; 还 有 一 个 pthreads 函数 ， 通 过 检查 两 个 线程 
pthread_t 对 象 来 确定 它们 是 否 为 同一 个 线程 。 

在 第 19 ~21 行 的 代码 中 ， 调 用 pthread_create 函数 来 生成 线程 。 它 与 大 多 数 的 Pthreads 
库 函 数 一 样 ， 有 一 个 前 级 pthread， 它 的 语法 为 : 


int pthread.createl 


pthread.tx* thread-p /* Out */, 
const pthread-attr-ty attr_p /A# 7 *¥/, 
Void* (x#start_routine})(void*) /kr in */, 
voOidx* arg-p /A# TD */): 


第 一 个 参数 是 一 个 指针 ， 指 向 对 应 的 pthread_t 对 象 。 注 意 ，pthread_t 对 象 不 是 由 
pthread_create 函数 分 配 的 ， 必 须 在 调用 pthread_create 函数 前 就 为 pthread_t 对 象 分 
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配 内 存 空间 。 第 二 个 参数 不 用 ， 所 以 只 是 在 函数 调用 时 把 NULL 传递 给 参数 。 第 三 个 参数 表示 该 
线程 将 要 运行 的 函数 ; 最 后 一 个 参数 也 是 一 个 指针 ， 指 向 传 给 函数 start_routine 的 参数 。 大 
多 数 Pthreads 函数 的 返回 值 用 于 表示 线程 调用 过 程 中 是 否 有 错误 。 为 了 减少 复杂 性 ， 在 本 章 〈 以 
”及 本 书后 面 的 内 容 ) 中 ， 我 们 一 般 忽 略 Pthreads 函数 的 返回 值 。 
接 下 来 ,我 们 仔细 研究 最 后 两 个 参数 ， 由 pthread_create 生成 并 运行 的 函数 应 该 有 一 个 
类 似 于 下 面 函 数 的 原型 ; 


[5g void* thread.function(void*x args-p): 


因为 类 型 void * 可 以 转换 为 C 语言 中 任意 指针 类 型 ， 所 以 args_p 可 以 指向 一 个 列表 ， 该 
列表 包含 一 个 或 多 个 thread_function 函数 需要 的 数值 。 类 似 地 ，thread_function 返回 的 
值 也 可 以 是 一 个 包含 一 个 或 多 个 值 的 列表 。 在 我 们 的 代码 中 ,调用 pthread_create 函数 时 ， 
传人 最 后 一 个 参数 采用 了 一 个 常用 的 技巧 : 为 每 一 个 线程 赋予 了 唯一 的 int 型 参数 rank， 表 示 线 
程 的 编号 。 首 先 ， 我 们 先 解释 一 下 这 么 做 的 理由 ， 然 后 再 具体 探讨 如 何 做 。 

考虑 以 下 问题 : 运行 一 个 生成 了 两 个 线程 的 Pthreads 程序 ， 当 其 中 一 个 线程 遇 到 了 错误 时 ， 
我 们 或 者 用 户 如 何 才能 知道 是 哪个 线程 出 了 问题 呢 ? 我 们 不 能 简单 地 输出 pthread_t 对 象 ， 因 
为 它 是 不 透明 的 。 如 果 我 们 启动 线程 时 赋予 第 一 个 线程 编号 为 0， 第 二 个 线程 编号 为 1， 那 么 通 
过 错误 信息 中 线程 的 编号 就 能 非常 容易 地 判断 是 哪个 线程 出 错 了 。 

既然 线程 函数 可 以 接收 V0id * 类 型 的 参数 ， 我 们 就 可 以 在 main 函数 中 为 每 个 线程 分 配 一 
个 int 类 型 的 整数 ， 并 为 这 些 整数 赋予 不 同 的 数值 。 当 启动 线程 时 ， 把 指向 该 int 型 参数 的 指 
针 传 递 给 pthread_create 函数 。 然 而 ， 程 序 员 会 用 类 型 转换 来 处 理 此 问题 : 不 是 在 main 函 
数 中 生成 int 型 的 进程 号 ， 而 是 把 循环 变量 thread 转化 为 void * 类 型 ， 然 后 在 线程 阴 数 he1 - 
10 中 ， 把 这 个 参数 的 类 型 转换 为 1ong 型 (第 33 行 ) 。 

类 型 转换 的 结果 是 “系统 定义 “的 ， 但 大 多 数 C 编译 器 允许 这 人 么 做 。 不 过 ， 如 果 指 针 类 型 的 
大 小 和 表示 进程 编号 的 整数 类 型 不 同 ， 在 编译 时 就 会 收 到 警告 。 在 我 们 使 用 的 机 器 上 ， 指 针 类 型 
是 64 位 ,而 int 型 是 32 位 ,为 了 避免 警告 我们 用 1ong 型 替代 了 int 型 。 

需要 注意 的 是 ,我 们 为 每 一 个 线程 分 配 不 同 的 编号 只 是 为 了 方便 使 用 。 事 实 上 ，pthread_ 
create 创建 线程 时 没有 要 求 必须 传递 线程 号 ， 也 没有 要 求 必 须要 分 配 线程 号 给 一 个 线程 。 

还 需要 注意 的 是 ， 并 非 由 于 技术 上 的 原因 而 规定 每 个 线程 都 要 运行 同样 的 函数 。 一 个 线程 运 
行 hello 函数 的 同时 ， 另 一 个 线程 可 以 运行 900dbye 函数 。 但 与 编写 MPI 程序 的 方法 类 似 ， 
Pthreads 程序 也 采用 “单程 序 ， 多 数据 ”的 并 行 模 式 ， 即 每 个 线程 都 执行 同样 的 线程 函数 ， 但 可 
以 在 线程 内 用 条 件 转移 来 获得 不 同 线程 有 不 同 功 能 的 效果 。 


4.2.4 运行 线程 
运行 main 函数 的 线程 一 般 称 为 主线 程 。 所 以 ， 在 线程 启动 后 ， 会 打印 一 句 : 


Hello from the main thread 


同时 ,调用 pthread_create 所 生成 的 线程 也 在 运行 。 这 些 线程 通过 第 33 行 的 类 型 转换 代 

码 获 得 各 自 的 编号 ， 然 后 打印 各 自 的 消息 。 注 意 ， 当 线程 结束 时 ， 由 于 它 的 函数 的 类 型 有 一 个 返 
回 值 ， 那 么 线程 就 应 该 返回 一 个 值 。 在 本 例 中 ， 线 程 没 有 需要 特别 返回 的 值 ， 所 以 只 返回 NULL。 
在 Pthreads 中 ， 程 序 员 不 直接 控制 线程 在 娜 个 核 上 运行 。 在 pthread_create 函数 中 ， 没 

有 参数 用 于 指定 在 哪个 核 上 运行 线程 。 线 程 的 调度 是 由 操作 系统 来 控制 的 。 在 负载 很 重 的 系统 上 ， 








日 有 些 系统 (例如 ， 某 些 Linux 的 实现 版 本 ) 允许 程序 员 指 定 线程 运行 在 哪个 核 上 ， 但 这 些 版 本 是 无 法 移植 的 。 
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所 有 线程 可 能 都 运行 在 同一 个 核 上 。 事 实 上 ， 如 果 线 程 个 数 大 于 核 的 个 数 ， 就 会 出 现 多 个 线程 运行 
在 一 个 核 上 。 当 然 ， 如 果 某 个 核 处 于 空闲 状态 ， 操 作 系统 就 会 将 一 个 新 线程 分 配给 这 个 核 。 


4.2.5 停止 线程 

代码 的 第 25 行 和 第 26 行为 每 个 线程 调用 一 次 pthread_join 函数 。 调 用 一 次 pthread. 
join 将 等 待 pthread_t 对 象 所 关联 的 那个 线程 结束 。pthread_join 的 语法 为 : 

int pthread-join( 


pthread.t thread AL/ 和 In #*/, 
VOid** ret_val-p /x* OUt x*/); 


第 二 个 参数 可 以 接收 任意 由 pthread_t 对 和 象 所 关联 的 那个 线程 产生 的 返回 值 。 在 我 们 的 例子 中 ， 
每 个 线程 执行 return， 最 后 ， 主 线程 调用 pthread_join 等 待 这 些 线程 完成 并 最 终结 束 。 

将 这 个 函数 命名 为 pthread_join 线程 0 
的 原因 是 ， 这 个 名 字 常 常用 于 多 线程 的 图 “主线 程 
解 描述 。 如 图 4-2 所 示 ， 假 设 主线 程 在 图 
中 是 一 条 直线 ,调用 pthread_create 
后 就 创建 了 主 函 数 的 一 条 分 支 或 派生 ， 多 
次 调用 ptnread_create 就 会 出 现 多 条 图 4-2 主线 程 派生 与 合并 两 个 线程 
分 支 或 派生 。 当 pthread_create 创建 的 线程 结束 时 ， 从 图 4-2 中 可 以 清楚 地 看 到 ， 这 些 分 支 
最 后 又 合并 (join) 到 主线 程 的 直线 中 。 


4.2.6 错误 检查 

为 了 使 程序 紧凑 易 读 ， 我 们 省 略 了 许多 在 “真正 ”程序 中 常见 而 重要 的 细节 。 例 子 中 的 程序 
(以 及 很 多 其 他 程序 ) 发 生 错 误 的 很 大 一 部 分 原因 是 用 户 的 输入 出 错 或 者 缺少 输入 。 因 些 ， 检 查 
一 个 程序 时 ， 最 好 一 开始 先 检查 命令 行 参数 ;人 允许 的 话 ， 还 可 以 检查 输入 的 实际 线程 数目 是 否 合 
理 。 如 果 访 问 本 书 的 网 站 ， 可 以 下 载 一 份 包含 基本 错误 检查 的 程序 。 

另外 ， 检 查 由 Pthreads 函数 返回 的 错误 代码 也 是 一 个 好 办 法 ， 尤 其 是 在 你 刚 开 始 使 用 这 个 库 ， 
对 具体 的 函数 功能 不 怎么 熟悉 的 时 候 。 


4. 2. 7 ”启动 线程 的 其 他 方法 

在 我 们 的 例子 中 ， 用户 通 过 在 命令 行 键入 参数 来 决定 生成 多 少 个 线程 ， 然 后 由 主线 程 来 生成 
这 些 “ 辅 助 ”线程 。 当 线程 运行 时 ， 主 线程 会 打印 消息 ， 然 后 等 待 其 他 线程 结束 。 这 种 多 线程 的 
编程 方法 与 MPI 的 编程 方法 类 似 ， 在 MPI 系统 中 ， 也 会 启动 一 组 进程 ， 然 后 等 待 它们 的 完成 。 

然而 ， 还 有 一 种 完全 不 同 的 多 线程 程序 设计 方法 。 在 这 种 方法 中 ， 辅 助 线程 根据 需要 而 启 
动 。 举 个 例子 ， 一 台 专 门 处 理 旧 金山 湾 区 高 速 公 路 交通 信息 的 Web 服务 器 ， 假 设 主线 程 接收 请 
求 ， 辅 助 线程 完成 请 求 。 平 常 周一 的 凌晨 1 点 ， 可 能 只 有 很 少 的 网 络 请 求 ， 但 到 了 晚上 5 点 ， 却 
会 出 现 数 千 个 请 求 。 因 此 ， 设 计 Web 服务 器 的 一 个 很 自然 的 做 法 是 ， 请 求 来 到 之 后 ， 主 线程 启动 
辅助 线程 进行 请 求 处 理 。 

需要 知道 的 是 ， 线 程 的 启动 也 是 有 开销 的 。 启 动 一 个 线程 花费 的 时 间 远 远 比 进行 一 次 浮 点 
运算 的 时 间 多 ， 所 以 ,“ 按 需 启动 线程 ”的 方法 也 许 不 是 使 应 用 程序 性 能 最 优化 的 理想 方法 。 
在 这 种 情况 下 ， 可 能 会 使 用 某 种 比较 复杂 的 模式 一 一 种 综合 考虑 两 种 方法 的 模式 。 主 线程 可 
以 在 程序 一 开始 时 就 启动 所 有 的 线程 ， 当 一 个 线程 没有 工作 可 做 时 ， 并 不 结束 该 线程 ， 而 是 让 
该 线程 处 于 等 待 状态 ， 直 到 再 次 分 配 到 要 执行 的 任务 。 在 编程 作业 4. 5 中 我 们 将 探讨 如 何 实现 
这 个 模式 。 





线程 1 
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4.3 矩阵 -向 量 乘法 
让 我 们 用 Pthreads 写 一 个 矩阵 - 向 量 乘法 程序 。 如 果 4 = (a;) 是 一 个 m xn 的 矩阵 ，x = (zxo， 
志 ，…,， 和 )1 是 一 个 n 维 列 向 量 9， 和 矩阵 - 向量 的 乘积 hx =y 是 个 m 维 的 列 向 量 。y = (y。，y，…， 
上 9 7。, ) ”中 的 第 ;个 元 素 ”% 是 矩阵 4 的 第 i 行 与 x 的 点 积 : 
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图 4-3 和 矩阵 -向 量 乘法 
根据 图 4-3， 矩阵- 向 量 乘法 的 串 行程 序 伪 代码 如 下 所 示 。 


/x* For each row of A */ 
for (i = 0; i < m; i++) f{ 
y[i] = 0.0; 
/kx For each element of the row ad each element of x */ 
for (tj = Or Te ms jer 
y[i] += Ar[i]r[j]* x[j]; 
} 


通过 把 工作 分 配给 各 个 线程 将 程序 并 行 化 。 一 种 分 配方 法 是 将 线程 外 层 的 循环 分 块 ， 每 个 线 
程 计算 y 的 一 部 分 。 例 如 ,假设 m=n=6， 线程 数 thread_count (或 t) 为 3， 则 计算 可 以 按 
下 列 情 况 分 配 : 





线程 y 的 一 部 分 线程 y 的 一 部 分 
0 y[0] ,y[1] 2 y[4], y[5] 
1 y[2], y[3] 





为 了 计算 y[0] ,线程 0 将 执行 代码 : 
y[0] = 0.0; 
for (1 0; XX ns j++) 
L014= EO EI REjs 
因此 ， 线 程 0 需要 访问 和 矩阵 A 的 第 0 行 以 及 向 量 x 中 的 每 一 个 元 素 。 更 一 般 地 ， 被 分 配给 y[ i ] 
E659 的 线程 将 执行 代码 ， 
ylil = as 
for (j = 0; j < n; j++) 
y[i] += ALTILj]*xXLj]; 
因此 ， 该 线程 需要 访问 矩阵 A 的 第 i 行 和 向 量 x 的 所 有 元 素 。 我 们 发 现 ， 每 个 线程 除了 访问 各 自 
分 配 到 的 矩阵 A 的 第 i 行 以 及 y 分 量 外 ， 还 要 访问 x 中 的 每 个 元 素 。 这 意味 着 最 低 限 度 下 ， 要 共 


CN 





日 ” 记 住 矩阵 和 向 量 的 下 标 从 0 开始 。5 是 一 个 矩阵 或 者 向 量 ， 而 六 代表 它 的 转 置 。 
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享 向 量 x。 如 果 把 A 和 y 都 设 为 共享 ， 看 上 去 好 像 违反 了 “只 有 需要 共享 的 数据 才能 成 为 全 局 变 
量 ” 的 法 则 。 我 们 将 在 习题 中 进一步 探讨 矩阵 A 和 y 为 局 部 变量 时 的 情况 ， 那 时 将 会 发 现 将 它们 
设置 为 全 局 变量 是 有 一 定 意义 的 。 如 果 和 矩阵 A 和 y 是 全 局 变量 ， 主 函数 就 可 以 简单 地 通过 读 取 标 
准 输 入 stdin 来 初始 化 矩阵 A， 乘 积 向 量 y 也 可 以 很 容易 被 主线 程 打印 输出 。 . 

做 完 上 述 的 分 析 后 ， 我 们 只 要 编写 每 一 个 线程 的 代码 ， 确 定 每 个 线程 计算 哪 一 部 分 的 y。 为 
了 简化 代码 ， 假 设 m 与 n 都 能 被 i 整除， 在 例子 中 ，m =6，t =3， 每 个 线程 能 分 配 到 mA 行 的 运 
算数 据 ， 而且， 线程 0 处 理 第 一 部 分 的 m/i 行 ,线程 1 处 理 第 二 部 分 的 m/i 行 ， 以 此 类 推 。 所 以 
线程 g 处 理 的 矩阵 行 是 : 


第 一 行 : g x 
最 后 一 行 : (g +1) x -1 


有 了 这 些 公式 ， 我 们 就 能 写 出 执行 矩阵 -向量 相 乘 的 线程 函数 。 见 程序 4-2。 在 这 个 程序 4-2 中 ， 
假设 A、x、y、m 和 n 都 是 全 局 共享 变量 。 


程序 4-2 ”Pthreads 的 和 矩阵 ~- 向量 乘法 


voidr Pth_mat_vect(yoidr rank} { 
long my-rank = (long) rank; 
int 1, j:; 
int local.m = m/thread_count: 
int my-first-row = my-rankr1l1opcal-mi 














int my-last-row = (my-ranki+l }#10cal.m — 1; 
for (i = my.tirst .row; i <= my.last_row; it+) 1{ 
y[i] = 0.0; 


for (j= 0; j < nn: jt+t) 
y[i] += A[i[j]*x[j]; 
] 


return NULL : 
} Pth_natVvect */ [6 





如 果 你 已 经 读 过 介绍 MPI 的 章节 ， 你 应 该 记得 ， 用 MPI 编写 一 个 矩阵 - 向 量 乘 法 的 程序 工作 
量 比较 大 ， 因 为 它 的 数据 结构 必须 是 分 布 式 的 ， 即 每 个 MPI 的 进程 只 能 直接 访问 自己 的 局 部 内 
存 。 所 以 ， 在 MPI 代码 中 ， 需 要 显 式 地 将 x 分 配 到 每 一 个 进程 的 内 存 中 。 从 这 个 例子 看 ， 编 写 一 
个 共享 内 存 的 并 行程 序 比 编写 分 布 式 内 存 的 程序 容易 ， 但 我 们 马上 就 会 看 到 : 共享 内 存 程序 也 有 
更 复杂 的 情况 。 


4.4 临界 区 


因为 共享 内 存 区 域 是 较 理 想 的 存储 访问 方式 ， 所 以 和 矩阵 - 向 量 乘法 的 代码 很 容易 编写 。 在 程 
序 初始 化 后 ， 线 程 只 读 取 除 了 y 以 外 的 所 有 变量 。 即 在 主 函 数 创 建 线程 后 ， 除 了 y 以 外 ,没有 任 
何 共享 变量 被 改写 。 即 使 是 y， 也 是 每 个 线程 各 自 改 变 属 于 自己 运算 的 那 一 部 分 ， 没 有 两 个 或 两 
个 以 上 线程 共同 处 理 同 一 部 分 y 的 情况 。 如 果 情 况 变 了 会 怎样 ? 如 果 多 个 线程 需要 更 新 同一 内 存 
单元 的 数据 会 怎样 ? 我 们 也 在 第 2 章 和 第 5 章 中 讨论 这 个 问题 ， 所 以 如 果 已 经 阅读 过 这 些 章节 ， 
你 可 能 已 经 知道 了 答案 。 但 我 们 还 是 要 来 看 一 个 例子 。 

看 看 这 个 估算 7 值 的 例子 ， 有 很 多 不 同 的 公式 可 以 用 来 估算 m+， 其 中 最 简单 的 是 : 

1 1 1 » 1 
i ee 
这 不 是 计算 7 的 最 佳 公式 ,因为 等 式 右边 要 计算 很 多 项 后 才能 使 得 结果 比较 精确 ， 但 对 我 们 来 
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说 ， 需 要 计算 的 项 越 多 越 好 。 
该 公式 的 囊 行 运算 代码 是 : 


double factor = 1.0; 

double sum = 0.0; 

for (i = 0; i < n; i++, factor = ~factor) { 
sum += factor/(2xi+l); 

} 

pi = 4.0xsum; 


我 们 尝试 用 并 行 化 矩阵 - 向 量 乘 法 的 方法 来 并 行 化 这 个 程序 : 将 for 循环 分 块 后 交 给 各 个 线程 处 

理 ， 并 将 Sum 设 为 全 局 变量 。 为 了 简化 计算 ， 假 设 线程 数 thread_count, 简称 t 能 够 整除 项 目 

总 数 n。 如 果 元 =n/t， 那 么 线程 0 加 上 第 一 部 分 的 元 项 ， 因 此 ， 对 于 线程 0， 循 环 变量 i 的 范围 是 
0 ~ 元 -1。 线 程 1 第 二 部 分 的 寺 项 ， 循 环 变量 的 范围 是 元 ~2n -1。 更 一 般 化 地 ， 对 于 线程 9， 循 环 

变量 的 范围 是 : 

92，g+1，42+2，…，(q+1) 元 -1 
而 且 ， 第 一 项 ， 也 就 是 第 gn 的 符号 ， 当 gn 为 偶数 时 ， 符 号 为 正 ; i 是 奇数 时 ， 符 号 为 负 。 线 
程 函 数 的 代码 如 程序 4-3 所 示 。 


程序 4-3 计算 Tt 的 线程 函数 











1 void*x Thread.sum(void* rank) 1 

2 long my-rank = (long) rank; 

3 double factor; 

4 long long i; 

5 1ong long my-n = Nn/thread.count; 

6 long long my-first-i = my.nxmy.rank; 

7 1ong long my-1ast-i = my-first-i + my_n; 

8 

9 if (my-first- % 2 == 0) /x my_first_i js even */ 
10 factor = 1.0; 

11 else /x* 由 -First ji is odd */ 

12 factor = 一 ,0; 

13 

14 for (1 = my_first.i; 1 < my-last-i; i++, factor = —factor) { 
15 Sum += factor/(2x*i+l); 

16 ] 

17 

18 return NULL; 


19 } /x Thread_sum */ 





如 果 使 用 2 个 线程 运行 Pthreads 程序 ， 并 生 n 的 值 也 相对 较 小 的 话 ， 那 么 我 们 发 现 Pthreads 
程序 的 结果 与 串 行 计算 “程序 的 结果 差不多 。 但 当 nn 值 增 大 时 ， 就 会 出 现 一 些 特别 的 结果 。 例 
如 ， 在 双核 处 理 器 上 我 们 获得 了 以 下 的 结果 : 





















3. 141 59 
3. 141 58 


3. 141 593 3. 141 5927 
3. 141 592 3. 141 592 6 









可 以 看 到 ， 随 着 的 增加 ， 单 线程 的 估算 结果 也 越 来 越 准 确 。 事 实 上 ，n 每 增 大 十 倍 就 能 获 

得 更 加 精确 的 结果 。n = 10 时 ，z 能 精确 到 小 数 点 后 5 位 ; n =10" 时 ,精确 到 小 数 点 后 6 位 等 。 
163| 两 个 线程 的 运算 结果 与 n=10’ 时 一 样 ， 然 而 ,对 于 nn 值 较 大 的 情况 ， 双 线程 的 计算 结果 反而 变 
糟 。 事 实 上 ， 多 次 运行 这 个 双 线 程 程序 ， 尽管 n 未 变 , 但 每 次 的 结果 都 不 同 。 现 在 ， 对 早先 我 们 
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提出 的 问题 有 了 明确 的 回答 :“ 是 的 ， 当 多 个 线程 尝试 更 新 同一 个 共享 变量 时 ， 会 出 问题 。 

让 我 们 看 看 为 什么 会 引起 问题 。 首 先 记 住 ， 两 个 变量 的 相 加 要 使 用 多 条 机 器 指令 ， 例 如 ， 用 
一 条 C 语句 将 存储 单元 y 的 内 容 加 到 存储 单元 x 中 去 : 

X 一 X 十 yi 
机 器 的 处 理 过 程 一 般 比 这 个 式 子 更 加 复杂 。 因为 x 和 y 中 的 值 都 存储 在 计算 机 的 主 存 中 ， 无 法 直 
接 进 行 加 法 运算 ， 需 要 先 将 它们 从 主 存 中 加 载 到 CPU 的 寄存 器 中 后 ， 才 能 进行 加 法 运算 。 当 运算 
完成 后 ， 必 须 将 结果 再 从 寄存 器 重新 存储 到 主 存 中 。 

假设 有 2 个 线程 ， 每 个 线程 对 并 存储 在 自己 私有 变量 y 中 的 值 进行 计算 。 还 假设 将 这 些 私 有 
变量 加 到 共享 变量 x 中 ， 主 线程 将 x 的 初始 值 置 为 0。 每 个 线程 执行 以 下 代码 : 


Compute(my-rank); 


y= 
X=X+y:;: 


假设 线程 0 计算 出 的 结果 为 y=1，, 线程 1 计算 出 的 结果 为 y=2， 则 “正确 ”结果 就 应 该 是 x = 
3。 但 是 ， 可 能 会 出 现 以 下 情况 : 





























时 间 线程 0 | 线程 1 

1 被 主线 程 启动 

2 调用 Compute( ) 被 主线 程 启动 

3 赋值 y=1 调用 Compute() 
-~ | 一 | 

4 将 X=0 和 y=1 放 人 寄存 句 赋值 y =2 

5 将 0 和 1 相 加 将 x=0 和 y =2 放 人 寄存 器 

6 把 1 存储 在 存储 单元 x 将 0 和 2 相 加 

把 2 存储 在 存储 单元 x 











如 果 在 线程 0 存储 它 的 结果 前 ,线程 1 就 将 x 的 值 从 内 存 复制 到 寄存 器 ， 那 么 线程 0 计算 出 
的 结果 就 会 被 线程 1 的 值 重 写 。 问 题 也 可 能 反 过 来 : 如 果 线 程 1 先 处 理 数据 ， 则 最 后 x 的 结果 会 
被 线程 0 的 值 重 写 。 事 实 上 ， 除 非 一 个 线程 在 其 他 线程 从 内 存 读 取 x 前 就 把 它 要 改写 的 值 写 回 内 
存 ， 和 否则 “ 先 到 者 ”的 结果 肯定 会 被 “后 来 者 ” 重 写 。 [8 

这 个 例子 反映 了 共享 内 存 编程 的 一 个 基本 问题 ， 当 多 个 线程 尝试 更 新 一 个 共享 资源 (在 这 里 
是 共享 变量 ) 时 ， 结 果 可 能 是 无 法 预测 的 。 更 一 般 地 ， 当 多 个 线程 都 要 访问 共享 变量 或 共享 文件 
这 样 的 共享 资源 时 ， 如 果 至 少 其 中 一 个 访问 是 更 新 操作 ， 那 么 这 些 访 问 就 可 能 会 导致 某 种 错误 ， 
我 们 称 之 为 竞争 条 件 (race condition) 。 在 我 们 的 例子 中 ， 为 了 使 代码 产生 正确 的 结果 ， 需 要 保证 
一 旦 某 个 线程 开始 执行 x =x +y， 其 他 线程 在 它 未 完成 前 不 能 执行 此 操作 。 因 此 ， 代 码 X=X+y 
就 是 一 个 临界 区 。 临 界 区 就 是 一 个 更 新 共享 资源 的 代码 段 ， 一 次 允许 只 一 个 线程 执行 该 代码 段 。 


4.5 忙 等 待 

当 线 程 0 要 执行 x=x +y 时 ， 它 需要 先 确认 线程 1 此 时 没有 在 执行 同样 的 语句 ， 一 旦 线程 0 
确认 后 ， 它 需要 通过 某 些 办 法 ， 告 知 线程 1 它 目前 正在 执行 该 语句 ， 以 防止 线程 1 在 线程 0 的 操 
作 完 成 前 ， 执 行 该 语句 而 导致 出 错 。 最 后 ， 当 线程 0 完成 操作 后 ， 也 需要 通过 某 些 办 法 ， 告 知 线 
程 1 它 已 经 结束 了 这 个 语句 的 执行 ， 线 程 1 此 时 可 以 安全 地 执行 这 条 语句 了 。 

一 个 不 涉及 新 概念 的 简单 方法 就 是 使 用 标志 变量 ， 设 标志 f1ag 是 一 个 共享 的 int 型 变量 ， 
主线 程 将 其 初始 化 为 0。 而 且 ， 将 下 列 代码 加 到 我 们 的 例子 中 ， 
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1 y= Compute(my.rank}); 

2 while (flag {= my.rank); 
3 x=X+y; 
4 


假定 线程 1 先 于 线程 0 完成 第 1 行 的 赋值 ， 当 它 运行 到 第 2 行 的 while 循环 时 会 怎样 呢 ? 仔细 观 
察 ， 你 会 发 现 这 个 while 是 个 空 循环 语句 ， 如 果 条 件 flag! =my_rank 为 真 ,， 那么 线程 1 会 再 
一 次 执行 对 这 个 条 件 的 判断 。 事 实 上 , 它 会 一 直 执 行 下 去 直到 条 件 为 假 。 当 检测 到 条 件 为 假 时 ， 
才 会 接 下 去 执行 x =X+y 这 条 语句 。 

因为 f1ag 的 初始 值 为 0， 所 以 直到 线程 0 执行 完 flag + + 前 ,线程 1 都 无 法 执行 x =x+ 
y。 事 实 上 ， 我 们 发 现 ， 除 非 线程 0 发 生 无 法 恢复 的 错误 ， 和 否则 它 的 进度 最 终 还 是 会 追 上 线程 1。 
当 线程 0 执行 循环 时 ， 因 为 条 件 为 假 ， 所 以 会 执行 临界 区 中 的 X=x+y， 完 成 后 会 执行 f1ag 十 

165| + ， 从 而 使 线程 1 终于 进入 临界 区 。 

这 段 代 码 有 一 点 很 关键 : 在 线程 0 执行 fl1ag+ + 前 ， 线程 1 不 会 进入 临界 区 。 如 果 严 格 地 
按照 书写 顺序 来 执行 代码 的 话 ， 就 意味 着 直到 线程 0 完成 ， 线 程 1 都 不 会 进 人 临界 区 。 

while 循环 语句 就 是 忙 等 待 的 一 个 例子 ， 在 忙 等待 中 ,线程 不 停 地 测试 某 个 条 件 ， 但 实际 
上 ， 直 到 某 个 条 件 满足 之 前 〈 在 我 们 的 例子 中 , 是 f1ag!=my_rank 条 件 为 false) ， 这 些 测试 都 
是 徒劳 的 。 

需要 注意 的 是 ,“ 忙 等 待 ” 这 种 方法 有 效 的 前 提 是 , “严格 地 按照 书写 顺序 来 执行 代码 ”。 如 
果 有 编译 器 优化 ,那么 编译 器 进行 的 某 些 代 码 优化 的 工作 会 影响 到 忙 等 待 的 正确 执行 。 编 译 器 无 
法 知道 程序 是 否 为 多 线程 的 ， 所 以 它 不 知道 变量 x 和 f1ag 的 值 会 被 其 他 线程 修改 。 例 如 ， 如 果 
我 们 的 代码 : 


y = Compute(my-rank); 

while (flag != my_rank); 

X=X+y; 

flag++:; 
只 被 一 个 线程 执行 ， 那 么 while(flag ! = my_rank) 和 X=x+y 语句 的 执行 顺序 就 不 再 重要 了 。 
编译 优化 为 了 充分 利用 寄存 器 ， 可 以 将 某 些 语句 的 顺序 交换 。 那 么 ， 代 码 就 会 变 为 : 

y = Compute(my.rank); 

while 本 != my-rank}); 

flag+t+; 
这 段 代码 会 使 忙 等 待 失效 。 为 了 防止 出 现 这 种 情况 ， 最 简单 的 方法 就 是 关闭 编译 优化 的 选项 。 在 
习题 4.3 中 我 们 会 见 到 另 一 种 方法 ， 不 需要 完全 关闭 优化 选项 。 

因此 ， 我 们 发 现 忙 等 待 不 是 控制 临界 区 最 好 的 方法 。 线 程 1 在 进入 临界 区 前 ， 只 能 一 遍 又 一 
遍地 执行 f1ag + + ， 如 果 线 程 0 由 于 操作 系统 的 原因 出 现 延 迟 ， 那 么 线程 1 只 会 浪费 CPU 周期 ， 
不 停 地 进行 循环 条 件 测 试 。 这 对 性 能 有 极 大 的 影响 ， 另 外 ， 关 闭 编译 器 优化 选项 同样 也 会 降低 
性 能 。 

在 继续 下 一 个 话题 之 前 ， 让 我 们 回 到 程序 4-3 中 的 “计算 程序 ， 并 将 它 改写 为 忙 等 待 代 码 。 
第 15 行 是 这 个 函数 中 的 临界 区 。 但 是 ， 当 线程 执行 完 临界 区 后 ， 如 果 它 只 是 简单 地 将 f1ag 的 值 
加 1， 那 么 最 后 f1ag 的 值 就 会 比 线程 数目 上 大 ， 这 就 会 导致 所 有 线程 都 无 法 再 次 进 人 临界 区 。 当 
试图 再 次 进入 临界 区 时 ， 各 个 线程 都 只 能 停留 在 不 停 地 进行 循环 条 件 的 判断 ， 无 法 继续 后 面 的 操 

L695 作 。 所 以 我 们 不 能 简单 地 对 f1ag 值 加 1， 当 线程 :-1 离开 临界 区 时 ， 应 该 将 f1ag 值 重 置 为 0， 

需要 将 f1ag + + 的 语句 改 为 : 


flag = (flag + 1) % thread-count; 
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程序 44 ”使 用 忙 等 待 求全 局 和 的 Pthreads 程序 








void* Thread.sum(void* rank) 1 


1 

2 long my-rank = (1long) rank: 

3 double factor; 

4 long long i; 

5 1ong long my-n = n/thread_count:; 

6 long long my_first.i = my_nxmy_rank; 
7 long long my.last.i = my_first_i + my-n; 
8 

9 if (my_first.i % 2 == 0) 

10 factor = 1.0; 

]1 else 

12 factor = -1.0; 

13 

14 for (i = my_first.i; i «< my.last.i; i++, factor = ~factor) { 
15 while (flag != my-rank)i 

16 sum += factor/(2*i+l1); 

17 fiag = (flag+l) % thread.count; 
18 | 

19 

20 return NULL; 

2 《Ar Thread.sum */ 








程序 44 是 修改 后 的 代码 ， 如 果 编 译 该 程序 并 开启 2 个 线程 来 运行 这 个 程序 ， 结 果 是 正确 的 。 然 
而 ,增加 了 计算 运行 时 间 的 代码 后 ， 我 们 发 现 当 ”= 10 ”时 ， 串 行 求 和 比 并 行 求 和 快 。 在 双核 系统 
中 ， 双 线程 运行 这 段 代 码 历时 19. 5 秒 ， 而 串 行 运算 只 要 2.8 秒 ! 

为 什么 会 这 样 ? 是 启动 线程 和 合并 线程 导致 的 开销 吗 ? 可 以 编写 一 个 简单 的 Pthreads 程序 来 
估算 一 下 : 


voidx Thread_function(tvoid* ignores! 1{ 
return NULL: 
} A* Thread-functian */ 


我 们 发 现 ， 在 特定 的 系统 上 运行 上 述 代码 ， 从 启动 第 1 个 线程 到 合并 第 2 个 线程 之 间 所 经 历 
的 时 间 少 于 0. 3 毫秒 ， 所 以 导致 运行 慢 的 原因 不 在 于 线程 本 身 的 开销 。 进 一 步 仔 细 观 察 这 个 使 用 
了 忙 等 待 的 线程 函数 ， 我 们 看 到 线程 的 临界 区 是 程序 的 第 16 行 。f1ag 初始 化 的 值 为 0， 所 以 在 
线程 0 完成 临界 区 运算 并 将 flag 加 1 之前， 线程 1 必须 等 待 。 线 程 1 开始 进入 临界 区 后 ， 线 程 0 
也 需要 等 待 线程 1 完成 运算 。 可 见 ， 线 程 不 停 地 在 等 待 和 运行 之 间 切 换 ， 显然 是 等 待 以 及 对 条 件 
值 加 1 的 操作 使 得 整体 的 运行 时 间 增 加 了 7 售 。 

程序 45 循环 后 用 临界 区 求全 局 和 的 函数 


voidx Thread-sumf(void+r rank) 1 
long my-rank = (10ng) rank; 
double factor, my-sum = 0.0; 
1ong 1long 1 
1ong long my-n = n/thread_count; 
iong long my_first_i = my-nx*my-rank; 
1ong 1ong my.last.i = my-first-i + my_n: 





if (my-first-i % 2 =—= 0) 
factor = 1.0; 

else 
factor = —1.0; 


for (i = my_first_i; i < my-last-i: i++, factor = —factor) 
my-sum += factor/(2#*i+l] ); 


while (flag != my-rank); 
Sum += my-sUm; 
flag = (flag+l) % thread_count: 
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return NUEL 
} Ar Thread-sum */ 





忙 等 待 不 是 保护 临界 区 的 唯一 方法 。 事 实 上 ， 还 有 很 多 更 好 的 方法 。 然 而 ， 因 为 临界 区 中 
的 代码 一 次 只 能 由 一 个 线程 运行 ， 所 以 无 论 如 何 限制 访问 临界 区 ， 都 必须 串 行 地 执行 其 中 的 代 
码 。 如 果 可 能 的 话 ， 我 们 应 该 最 小 化 执行 临界 区 的 次 数 。 能 够 大 幅度 提高 性 能 的 一 个 方法 是 : 
给 每 个 线程 配置 私有 变量 来 存储 各 自 的 部 分 和 ， 然 后 用 for 循环 一 次 性 将 所 有 部 分 和 加 在 一 起 
算出 总 和 。 在 双核 系统 上 运行 程序 4$， 当 ”= 10 时， 总 运算 时 间 减 为 1.5 秒 ， 有 了 实质 上 的 
改进 。 


4.6 互 斥 量 


因为 处 于 忙 等 待 的 线程 仍然 在 持续 使 用 CPU， 所 以 忙 等 待 不 是 限制 临界 区 访问 的 最 理想 方 
[6 引 法 。 这 里 ， 有 两 个 更 好 的 方法 : 互 斥 量 和 信和 号 量 。 互 斥 量 是 互 斥 锁 的 简称 ， 它 是 一 个 特殊 类 型 
的 变量 ， 通 过 某 些 特殊 类 型 的 函数 ， 互 斥 量 可 以 用 来 限制 每 次 只 有 一 个 线程 能 进 人 临界 区 。 互 
斥 量 保证 了 一 个 线程 独 享 临界 区 ， 其 他 线程 在 有 线程 已 经 进入 该 临界 区 的 情况 下 ,不 能 同时 
进入 。 
Pthreads 标准 为 互 斥 量 提供 了 一 个 特殊 类 型 : pthread_mutex. 七 。 在 使 用 pthread_mutex 
_t 类 型 的 变量 前 ， 必 须 由 系统 对 其 进行 初始 化 ， 初 始 化 函数 如 下 : 


int pthreadmutex.initt( 
pthread_mutex.t* mutex-p /# OUt 水 / 
const pthread-mutexattr-t* attr-p /Ax in */); 


我 们 不 使 用 第 二 个 参数 ， 给 这 个 参数 赋值 NULL 即 可 。 当 一 个 Pthreads 程序 使 用 完 互 斥 量 后 ， 它 
应 该 调用 : 


int pthread.mutex.destroy(pthread mutex-t* mutex-p /* jn/out */); 


要 获得 临界 区 的 访问 权 ， 线 程 需 调用 : 


int pthread mutex.lock{pthreadmutex_t# mutexp /+ in/out */); 


当 线 程 退 出 临界 区 后 ， 它 应 该 调用 : 


int pthreadmutexunjock(tpthreadmutex.t* mutex.p /x* in/out */); 


调用 pthread_mutex_1ock 会 使 线程 等 待 ， 直 到 没有 其 他 线程 进入 临界 区 ; 调用 pthread_mu- 
tex_un1ock 则 通知 系统 该 线程 已 经 完成 了 临界 区 中 代码 的 执行 。 

通过 声明 一 个 全 局 的 互 斥 量 ， 可 以 在 求全 局 和 的 程序 中 用 互 斥 量 代替 忙 等 待 。 主 线程 对 互 斥 
量 进 行 初始 化 ， 然 后 ， 用 互 斥 量 蔡 换 忙 等 待 和 增 量 标志 ， 在 线程 进入 临界 区 前 调用 pthread_ 
mutex_1ock， 在 执行 完 临 界 区 中 的 所 有 操作 后 再 调用 pthread_mutex_un1ock。 参 见 程序 4- 
6。 第 一 个 调用 pthread_mutex_1ock 的 线程 会 为 临界 区 “ 锁 门 ” ， 其 他 线程 如 果 也 想 要 进入 临 
界 区 ， 也 需要 先 调用 pthread_mutex_1ock， 这 些 调 用 了 pthread_mutex_1ock 的 线程 都 会 
阻塞 并 等 待 ， 直 到 第 一 个 线程 离开 临界 区 。 所 以 只 有 当 第 一 个 线程 调用 了 pthread_mutex_un- 
1ock 后 ， 系 统 才 会 从 那些 阻塞 的 线程 中 选取 一 个 线程 使 其 进入 临界 区 。 这 个 过 程 反复 执行 ， 直 
到 所 有 的 线程 都 完成 临界 区 的 操作 。 

对 临界 区 进行 “上 锁 ” 和 “解锁 ”并 不 是 使 用 互 斥 量 时 唯一 的 比喻 。 程 序 员 常 常会 说 ， 从 
pthread_mutex_1ock 函数 返回 的 线程 “获得 了 互 斥 量 ”或 者 “ 拿 到 了 锁 ”; 同样 地 ， 调 用 

pthread_mutex_unlock 常 称 为 “释放 ”一 个 锁 或 互 斥 量 。 
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程序 4-6 ”用 互 斥 量 计算 全 局 和 





1 voidx Thread_sum(void* rank) { 

2 long my-rank = (10ong) rank; 

3 double factor; 

4 long long i; 

5 1ong long my-n = n/thread count:; 

6 long long my-first_i = my-n*my-rank:; 
7 1ong 1ong my-1ast-i = my-first_i + my_n: 
8 double my-sum = 0,0; 

9 

10 if (my-firsti % 2 = 0) 

11 factor = 1.0; 

12 else 

13 factor = ~—1.0; 

14 

15 for (i = my-first.i; i «< my-last.i; i++, factor = —factor) { 
16 my-sum += factor/ (2*i+] ); 

17 } 

18 pthread mutex_lock(&mutex):; 

19 Sum 十 = my_sum:; 

20 pthread-mutex-un1ock(&mutex): 

21 

22 return NULL; 


23 } /x Thread_sum */ 








注意 ， 在 使 用 互 斥 量 的 多 线程 程序 中 ， 多 个 线程 进入 临界 区 的 顺序 是 随机 的 ， 第 一 个 调用 
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pthread_mutex_l1ock 的 线程 率先 进入 临界 区 ， 接 下 去 的 线程 顺序 则 由 系统 负责 分 配 。Pthreads 
无 法 保证 线程 按 其 调用 pthread_mutex_1ock 的 顺序 获得 进入 临界 区 的 锁 。 但 在 我 们 的 设 定 


中 ， 只 有 有 限 个 线程 在 尝试 获得 锁 的 所 有 权 ， 最 终 每 一 个 线程 都 会 获得 锁 。 


我 们 先 观 察 两 个 没有 经 过 性 能 优化 的 程序 。 这 两 个 程序 ， 一 个 是 采用 忙 等 待 计算 r 多 线程 程 
序 (循环 后 进入 临界 区 ) ， 另 一 个 是 互 斥 量程 序 。 我 们 发 现 ， 只 要 线程 数目 不 大 于 核 的 个 数 〈 见 


表 4-1) ， 这 两 个 程序 单线 程 运行 时 间 与 多 线程 版 本 的 运行 时 间 之 比 约 等 于 线程 数 ， 即 


7 
-thread count 
TF 


如 果 thread_count 小 于 或 等 于 核 的 个 数 。 将 Thr/T#4# 称 为 加 速 比 ， 当 加 速 比 等 于 线程 数 


目 时 ， 就 获得 “理想 ”的 性 能 或 线性 加 速 比 。 


比较 使 用 忙 等 待 和 互 斥 量 的 程序 性 能 ， 当 线程 个 数 少 于 核 的 个 数 时 ， 我 们 发 现 两 者 的 执行 时 


间 并 没有 很 大 差别 。 对 这 个 发 现 无 需 惊讶 ， 因 为 每 个 线程 只 会 进入 临界 区 一 次 ， 所 以 除非 是 临界 


区 的 代码 很 长 或 者 Pthreads 函数 的 运行 速度 慢 ， 否 则 线程 等 待 进入 临界 区 的 时 间 都 不 会 很 长 。 但 
是 ， 如 果 把 线程 数 增加 到 超过 核 的 个 数 ， 那 么 采用 互 斥 量程 序 的 性 能 仍然 维持 不 变 ， 但 忙 等 待 程 


序 的 性 能 就 会 下 降 。 


表 4-1 计算 Tt 的 程序 ， 使 用 n=10" 个 项 目 ， 在 一 个 有 两 个 4 核 处 理 器 的 系统 上 的 运行 时 间 { 秒 ) 




















4 0.73 0.73 
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| 一 


我 们 可 以 看 到 ， 使 用 忙 等 待 的 多 线程 程序 在 线程 数 超过 核 的 个 数 时 ， 性 能 会 下 降 ” 。 这 是 合 
理 的 。 例 如 ,假设 有 2 个 核 和 5 个 线程 ， 再 假设 线程 0 在 执行 临界 区 ， 线 程 1 处 于 忙 等 待 状态 ， 
线程 2、 线程 3 、 线 程 4 被 操作 系统 挂 起 。 当 线程 0 完成 临界 区 的 操作 将 f1ag 设 为 1 时 ， 线程 1 
进入 临界 区 ， 操 作 系统 可 以 调度 线程 2、 线 程 3、 线 程 4 中 的 一 个 。 假 设 操作 系统 调度 到 线程 3， 
它 在 while 语句 上 循环 等 待 。 当 线程 1 也 完成 了 临界 区 操作 ， 将 f1ag 设 为 2， 操 作 系统 就 可 以 
调度 线程 2 或 线程 4。 如 果 它 选择 了 线程 4， 则 线程 3 和 线程 4 都 会 在 忙 等 待 中 循环 ， 直 到 操作 系 
统 将 它们 中 的 一 个 挂 起 ， 并 调度 线程 2。 详 见 表 4-2。 


4.7 生产 者 -消费 者 同步 和 信号 量 

尽管 忙 等 待 总 是 浪费 CPU 的 资源 ， 但 它 是 我 们 至 今 所 知 的 ， 能 事先 确定 线程 执行 临界 区 代码 
顺序 的 最 适合 方法 : 线程 0 最 先 执行 ， 然 后 线程 1， 接 下 来 线程 2 等 。 如 果 采 用 互 斥 量 ， 那 么 哪 
个 线程 先进 入 临界 区 以 及 此 后 的 顺序 由 系统 随机 选取 。 因 为 加 法 计算 是 可 交换 的 ， 所 以 计算 程 
序 的 结果 不 受 线程 执行 顺序 的 影响 。 但 是 ， 不 难 想 象 ， 仍 然 会 存在 一 些 情况 ， 需 要 控制 线程 进入 
临界 区 的 顺序 。 例 如 ， 假 设 每 个 线程 生成 一 个 n xn 矩阵， 然后 按照 线程 号 的 顺序 依次 将 各 个 线 
程 的 矩阵 相 乘 。 但 矩阵 相 乘 这 种 计算 是 不 可 交换 的 ， 使 用 互 扩 量 的 程序 就 会 出 现 一 些 问 题 ， 


/*# n and product.matrix are shared and initialized by the main 
thread */ 
/x# productmatrix is initialized to be the identity matrix */ 
voidx Thread.work(voidx rank) { 
long my-rank = (long) rank; 
matrixt my_mat = Allocate_matrixt{n); 
Generate.matrix(my-mat); 
pthread_mutex.iock(&mutex}),; 
Multiply.matrix(product.mat, my-mat); 
pthread-mutex-un1ock(&mutex) 
Free _ matrix(&my_mat); 
return NULL; 
} /x Thread_work x*/ 


表 4-2 采用 性 等 待 ， 并 且 线 程 个 数 多 于 核 的 个 数 时 ， 可 能 的 线程 执行 顺序 
线程 







































时 间 fag 0 | 1 2 [| | 4 
0 0 执行 临界 区 | 。 忙 等 待 挂 起 挂 起 挂 起 
1 1 终止 执行 临界 区 挂 起 忙 等 竺 挂 起 
2 2 终止 ”| 挂 起 | 。 忙 等 待 亿 等 待 
执行 临界 区 











在 更 复杂 的 例子 中 ， 每 个 线程 都 会 向 其 他 线程 “发 送 消息 ”。 例 如 ， 假设 我 们 有 thread_ 
count 或 ;个 线程 ,线程 0 向 线程 1 发 送 消息 ,线程 1 向 线程 2 发 消息 ，…， 线程 :-2 向 线程 : -1 
发 消息 ,线程 ; -1 向 线程 0 发送 消息 。 当 一 个 线程 “接收 ”一 条 消息 后 ， 它 打印 消息 并 终止 。 为 了 
实现 消息 的 传递 ， 分配 了 一 个 char* 类 型 的 共享 数组 ， 每 个 线程 初始 化 消息 后 ， 就 设 定 这 个 共享 数 
组 中 的 指针 指向 要 发 送 的 消息 。 为 了 避免 引用 到 没有 被 定义 的 指针 ， 主 线程 将 共享 数组 中 的 每 项 都 
先 设 为 NULL， 具 体 参见 程序 4-7。 当 在 双核 系统 上 运行 多 于 两 个 线程 的 程序 时 ,我 们 发 现 消息 始终 


日 ”这 是 典型 的 运行 时 间 。 当 使 用 忙 等 待 ， 并 且 线 程 个 数 超过 核 的 个 数 时 ， 运 行 时 间 会 出 现 剧 烈 变 化 。 
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未 收 到 。 例 如 ， 在 线程 4- ! 把 消息 复制 到 message 数组 前 ， 最 先 运行 的 线程 0 早已 结束 。 这 一 
点 也 不 令 人 惊奇 ， 如 果 把 第 12 行 的 if 语句 蔡 换 成 忙 等 待 的 while 语句 ， 问 题 就 可 以 得 到 解决 ; 


while (messages[my_-rank] == NULL) 
Printf("Thread %1d > %SsNn"，my-rank，messages[my-rank]); 


当然 ， 这 个 方法 有 着 所 有 使 用 忙 等 待 程序 都 有 的 问题 ， 所 以 我 们 更 愿意 使 用 其 他 的 方法 。 
程序 4-7 使 用 Pthreads 发 送 消息 的 第 一 种 尝试 





/* messages has type char**. lt's allocated in main. */ 


1 

2 /# Each entry is set to NULL in main. */ 

3 voidx Send_msg(void* rank) 1 

4 1ong my-rank = (long) rank: 

5 long dest = (my-rank + 1) % thread-count ; 

6 ong source = {my-rank + thread-count 一 1) % thread_count: 

7 char* my-msg = malloc(MSG_-MAX*Ssizeof(char)): 

8 

9 Sprintfftmy-nsg， "Hello to %id from %ld"”, dest, my_rank): 

10 messages[dest] = my_msg; 

11 

12 if (messages[my-rank] != NULL) 

13 printft"Thread %1d > %s\n", my-rank, messages[my_rank]):; 

14 else 

15 printf("Thread %1d > No message from %ld\n", my_rank, 
source); 

16 

17 return NULL ; 

I8 } /*# Send.msg */ 


在 执行 完 第 10 行 的 赋值 语句 后 ， 我 们 希望 “通知 ”线程 号 为 dest 的 线程 ， 它 可 以 打印 消息 了 ， 
可 以 把 程序 改写 成 : 


messages[dest] = my-msg; 
Notify thread dest that it can proceed; 


Await notification from thread source 
printf("Thread %1d > %s\n", my-rank, messages[my-rank]); 


现在 还 不 太 清 楚 互 斥 量 能 否 用 在 这 个 场合 中 。 我 们 尝试 着 通过 调用 pthread_mutex_un- 
1ock 来 “通知 ”编号 为 dest 线程 。 然 而 ， 互 斥 量 初始 化 后 处 于 开锁 状态 ， 因 此 需要 在 初始 化 
message[ destj] 前 增加 一 个 调用 给 互 斥 量 上 锁 。 但 是 ， 问 题 在 于 ， 我 们 无 法 知道 什么 时 候 线 程 
执行 到 调用 pthread_mutex_1ock。 173 

为 了 让 我 们 的 表述 更 清楚 ， 我 们 让 主线 程 创 建 并 初始 化 一 个 互 斥 量 数组 ， 每 一 个 线程 对 应 一 
个 互 斥 量 。 然 后 ， 我 们 尝试 着 做 下 面 的 工作 : 


pthread -mutex_lock(mutex[dest]); 


messages[dest] = my_-msg; 
pthreadmutex_unlock (mutex[dest]); 


pthread.mutex.lock (mutex[my_.rank]); 
printf("Thread %id > %s\n", my-rank, messages[my-rank]); 


CP 


现在 ,假设 有 两 个 线程 ,线程 0 运行 得 远 比 线程 1 快 ， 所 以 当 它 调用 第 7 行 的 pthread_mutex_lock 
时 ,线程 1 才刚 刚 运行 到 第 2 行 。 线 程 0 获得 锁 ， 并 继续 执行 pr intf 语句 ， 这 会 导致 线程 0 引用 空 指 
针 〔 此 时 , 线程 0 的 messages[my_rank] 还 是 NULL。 一 一 译 者 注 )， 然 后 使 得 整个 程序 崩 演 。 

还 有 另外 一 些 方 法 也 可 以 通过 互 斥 量 解决 这 个 问题 ， 参 见习 题 4.7。 然 而 ，POSIX 线程 库 还 
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提供 另 一 个 控制 访问 临界 区 的 方法 : 信和 号 量 (semaphore) 。 

信和 号 量 可 以 认为 是 一 种 特殊 类 型 的 unsigned int 无 符号 整 型 变量 ， 可 以 赋值 为 0、1、2、…。 
大 多 数 情况 下 ， 只 给 它们 赋值 0 和 1， 这 种 只 有 0 和 1 值 的 信号 量 称 为 二 元 信号 量 。 粗 略 地 讲 ，0 对 
应 于 上 了 锁 的 互 斥 量 ，! 对 应 于 未 上 锁 的 互 斥 量 。 要 把 一 个 二 元 信号 量 用 做 互 斥 量 时 ， 需 要 先 把 信 
号 量 的 值 初始 化 为 1， 即 开锁 状态 。 在 要 保护 的 临界 区 前 调用 晴 数 Sem_wait ， 线 程 执行 到 sem_ 
wait 函数 时 ， 如 果 信 和 号 量 为 0， 线 程 就 会 被 阻塞 。 如 果 信 和 号 量 是 非 0 值 ， 就 减 1 后 进入 临界 区 。 
执行 完 临 界 区 内 的 操作 后 ， 再 调用 sem_post 对 信和 号 量 的 值 加 1， 使 得 在 sem_wait 中 阻塞 的 其 
他 线程 能 够 继续 运行 。 

信号 量 是 由 计算 机 科学 家 Edsger Dijkstra 在 [13] 中 首次 定义 的 ， 它 取 名 自控 制 铁道 换 轨 的 
机 械 设 备 ， 用 来 指定 哪 列 火车 能 使 用 轨道 。 该 设备 由 一 个 附 有 标示 且 能 转动 的 臂 轴 组 成 ， 当 臂 轴 
和 标杆 同 向 时 ， 列 车 可 以 通过 ; 而 当 臂 轴 和 标杆 垂直 时 ， 接 近 的 列车 必须 停止 并 等 待 。 对 应 于 临 
界 区 操作 时 ， 臂 轴 放 下 表示 信号 量 的 值 为 1; 而 升 起 时 ， 则 表示 信号 量 值 为 0。 调 用 sem_wait 
和 Sem_post 函数 就 相当 于 列车 向 信号 量 控制 器 发 送 相应 的 信和 号。 

信和 号 量 与 互 斥 量 最 大 的 区 别 在 于 信和 号 量 是 没有 个 体 拥有 权 的 ， 主 线程 将 所 有 的 信和 号 量 初始 化 
为 0， 即 “加 锁 ”， 其 他 线程 都 能 对 任何 信号 量 调用 sem_post 和 Sem_wait 函数 。 因 此 ， 如 果 

使 用 信号 量 ，Send_msg 函数 可 以 如 程序 4-8 中 那样 编写 。 


程序 4-8 ”使 用 信号 量 让 线程 发 送 消息 


1 /* messages is aliocated and initiaiized to NULL in main */ 
2 /* Semaphores is dllocated and initiaiized to 0 (locked) in 











main */ 
3 void*x Send.msg(voidx*x rank) { 
4 long my-rank = (long) rank: 
5 long dest = (my_rank + 1) % thread-count ， 
6 char* my-msg = malloc(MSG MAX*sizeof (char)); 
7 
8 sprintf(my_msg, "Hello to %1d from %ld", dest, my_rank); 
9 messages[dest] = my-msg; 
10 sem_post(&semaphores[dest]} 
/wk Uniock'" the semaphore of dest */ 
11 
12 /* Wait for our semaphore to be UnTOCKed */ 
13 semwait(&semaphores[my_rank]); 
14 printf("Thread %1d > %s\n", my-rank, messages[my-rank]); 
15 
16 return NULL; 
17 } /x Send.msg */ 
不 同 信号 量 函 数 的 语法 为 : 

int sem_initt 

Sem_t* semaphore-p /*¥ OUt */, 

int shared /x jn x*/, 

unsigned initial_val /* in */); 


int sem_destroy{({sem-t* semaphore.p /* in/out */) 
int sem.post(sem_t* semaphore.p /* in/out */)} 
int sem wait(sem_t* Semaphore-p /* in/out */); 


我 们 不 使 用 Sem_int : 函数 的 第 二 个 参数 ， 对 这 个 参数 只 需 传人 常数 0 即 可 。 注 意 ， 信 和 号 量 不 是 
Pthreads 线程 库 的 一 部 分 ， 所 以 需要 在 使 用 信号 量 的 程序 开头 加 头 文件 。 


全 ”有些 系 统 ， 如 Mac 0S X， 不 支持 这 类 的 信和 号 量 ， 它 们 支持 一 种 称 为 “命名 ”信和 号 量 的 信和 号 量 ， 范 数 sem_wait 
和 sem_post 仍然 可 用 。 但 sem_init 要 换 成 sem_open， 而 sem_destroy 则 替换 为 sem_c1ose 和 sem_un- 
1ink。 可 以 在 本 书 网 站 上 找到 相关 的 例子 。 
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#include <semapno"e.h> 


最 后 ， 需 要 指出 的 是 : 程序 4-8 中 的 消息 传递 不 涉及 临界 区 。 问 题 已 经 不 再 是 一 段 代码 一 次 
只 能 被 一 个 线程 执行 ， 而 变 成 了 线程 my_rank 在 线程 source 发 出 消息 前 一 直 被 阻塞 。 这 种 一 
个 线程 需要 等 待 另 一 个 线程 执行 某 种 操作 的 同步 方式 ， 有 时 称 为 生产 者 - 消费 者 同步 模型 。 


4.8 路障 和 条 件 变 量 


接 下 来 我 们 看 看 共享 内 存 编程 的 男 一 个 问题 ， 通 过 保证 所 有 线程 在 程序 中 处 于 同一 个 位 置 来 
同步 线程 。 这 个 同步 点 又 称 为 路 障 (barrier) ， 只 有 所 有 线程 都 抵达 此 路 障 ， 线 程 才能 继续 运行 下 
去 ， 否 则 会 阻塞 在 路 障 处 。 

路 障 有 很 多 应 用 。 比 如 第 2 章 讨 论 的 计时 多 线程 程序 ， 希 望 所 有 线程 能 够 在 同一 时 间 点 开始 
计时 ， 在 最 后 一 个 线程 完成 (“ 最 慢 ” 的 线程 ) 时 再 报告 时 间 。 具 体 的 代码 为 ; 


/#¥ Shared */ 
double elapsed time; 


sx* Private */ 
double my._start. my-tinish, my-elapsed: 


Synchronize threads: 
Store current time jn my_start; 
/* Execute timed code */ 


Store current time in my.finish:; 
my-elapsed = my-finjsh 一 my_start; 


elapsed = Maximum of my-e1apsed values; 


使 用 这 种 方法 ， 能 够 确保 所 有 线程 大 致 在 相同 的 时 间 点 上 记录 my_start。 

路 障 另 一 个 非常 重要 的 应 用 是 调试 程序 。 正 如 你 可 能 已 经 看 到 的 ， 当 并 行程 序 发 生 错 误 时 ， 
很 难 确定 具体 是 哪个 位 置 出 现 错误 。 当 然 ， 可 以 让 每 个 线程 都 打印 消息 ,来 表明 它 运 行 到 程序 的 
哪个 点 ,但 当 打印 的 消息 越 来 越 多 后 ， 这 方法 就 不 管用 了 。 路 障 为 调试 程序 提供 了 另 一 种 方法 : 


point in program we want to reach; 
barrier: 
”if (my-rank == 0) { 
printf("All tnreads reached this point\n")}: 
ffiushtstaour)}: 
1 


许多 Pthreads 的 实现 不 提供 路 障 ， 为 了 使 得 程序 具有 可 移植 性 ， 我 们 需要 自己 实现 路 障 。 有 
很 多 方法 来 实现 路 障 ， 我 们 将 具体 讨论 其 中 的 三 种 方法 。 其 中 的 两 种 方法 已 经 在 之 前 做 过 介绍 ， 
第 三 种 方法 使 用 了 新 的 Pthreads 对 象 : 条 件 变 量 (conditional varialble ) 。 


4. 8. 1 忙 等 待 和 互 斥 量 
用 忙 等 待 和 互 斥 量 来 实现 路 障 比较 直观 ;我们 使 用 一 个 由 互 斥 量 保护 的 共享 计数 器 。 当 计数 
器 的 值 表 明 每 个 线程 都 已 经 进入 临界 区 ， 所 有 线程 就 可 以 离开 忙 等 待 的 状态 了 。 


/x Shared and initialized by the main thread */ 
int counter; /x* Iinitialize to 0 */ 

int thread-count ; 

pthread-mutex-t barrier.mutex; 


voidr Threadwork{. . .) | 


/* Barrier */ 
pthread mutex.lock(&barrier .mutex); 
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COUnter++; 
pthreadmutex_unlock(&barrier.mutex); 
while (counter < thread.count)} 


} 


当然 ， 这 种 实现 会 有 与 其 他 使 用 忙 等 待 程序 一 样 的 问题 : 线程 处 于 忙 等 待 循环 时 浪费 了 很 多 
CPU 周期 ， 并 且 当 程序 中 的 线程 数 多 过 于 核 数 时 ， 程 序 的 性 能 会 直线 下 降 。 

另 一 个 问题 在 于 共享 变量 counter。 如 果 我 们 想 要 实现 第 2 个 路 障 并 重新 使 用 counter 这 
个 变量 作为 计数 器 ， 那 么 会 发 生 什么 状况 呢 ? 当 第 一 个 路 障 完成 时 ，counter 的 值 为 thread_ 
count。 除 非 重 置 counter 的 值 ， 否 则 第 一 个 路 障 的 循环 条 件 counter 《thread_count 一 直 
处 于 false 状态 ， 路 障 也 就 无 法 阻塞 线程 了 。 此 外 ， 试 图 将 counter 值 重 置 为 0 几乎 注定 会 失败 。 
如 果 最 后 一 个 线程 进入 循环 并 重 置 counter 值 ， 那 么 其 他 一 些 处 于 忙 等 待 的 线程 将 永远 看 不 到 
counter = =thread_count 的 条 件 成 立 ， 并 永远 处 于 忙 等 待 中 。 如 果 线 程 在 经 过 路 障 后 重 置 
counter 值 ， 另 一 些 线程 可 能 在 重 置 前 就 已 经 进入 了 第 二 个 路 障 ， 由 这 些 线程 引起 的 counter 
增加 值 就 会 因 重 置 而 丢失 ， 这 会 导致 所 有 线程 都 被 困 在 第 二 个 路 障 的 忙 等 竺 中。 所以， 如 果 想 要 
使 用 这 种 实现 方式 的 路 障 ， 则 有 多 少 个 路 障 就 必须 要 有 多 少 个 不 同 的 共享 counter 变量 来 进行 
计数 。 


4. 8. 2 信号 量 

我 们 自然 会 提出 问题 ， 是 否 能 用 信号 量 来 实现 路 障 ? 如 果 可 以 ， 是 否 能 解决 采用 忙 等 待 和 互 
斥 量 实现 路 障 的 方式 里 出 现 的 问题 ? 对 第 一 个 问题 的 回答 是 : 当然 能 。 

jy Shared variables */ 

int counter; /x* Initialize to 0 */ 

sem-t count.sem; /* Initialize to 1 */ 

sem.t barrier.sem; /* lnitialize to 0 */ 


void* Thread.work(...) { 


/* Barrier x*/ 

Sem_wait(&count.sem): 

if (counter == threadcount—1) 1 
counter = 0: 
sem.post(&count.sem); 
for (j = 0; j < thread_count—l; j++) 

Sem-post(&barrier-se 印 ) : 

} else { 
countertt; 
sem-post(&count_sem): 
semwait(&barrier_sem); 

) 

} 


在 忙 等 待 的 路 障 中 ， 使 用 一 个 计数 器 来 判断 有 多 少 线程 进入 了 路 障 。 在 这 里 ， 我 们 采用 两 个 
信号 量 : count_sem， 用 于 保护 计数 器 ; barrier_sem， 用 于 阻塞 已 经 进入 路 障 的 线程 。 
counter_sem 信号 量 初始 化 为 1 (开锁 状态 ) ， 第 一 个 到 达 路 障 的 线程 调用 sem_wait 函数 ， 则 
随后 的 线程 会 被 阻塞 直到 获取 访问 计数 器 的 权限 。 当 一 个 线程 被 允许 访问 计数 器 时 ， 它 检查 
counter <thread_count -1 是否 成 立 ， 如 果 成 立 ,线程 对 计数 器 的 值 加 1 并 “释放 锁 ” 
(sem_post(&count_sem)), 然后 在 调用 sem_wait(gbarrier_sem) 后 阻塞 。 另 一 个 方面 ， 
若 counter = =thread_count -1， 最 后 一 个 进入 路 障 的 线程 重 置 计 数 器 的 值 为 0， 并 通过 调 
用 sem_post(&count_sem) 来 “解锁 ”count_sem。 接 着 ， 它 需要 通知 所 有 的 线程 继续 运行 ， 
所 以 它 为 pthread_count -1 个 阻塞 在 Sem_wait(&barrier_senm) 的 线程 分 别 执行 一 次 sem_ 
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post(&barrier_sem)。 

如 果 出 现 这 种 情况 : 线程 提前 开始 循环 执行 sem_post(&barrier_sem)， 在 其 他 线程 还 未 
调用 sem_wait(&barrier_sem) 解 锁 前 ， 就 已 经 多 次 调用 Sem_post， 这 种 情况 是 不 要 紧 的 。 
信号 量 是 unsigned int 类 型 的 变量 ,调用 sem_post 会 对 它 的 值 加 1， 调用 sem_wait 时 只 要 它 
的 值 不 为 0 就 减 1， 当 值 为 0 时 ， 调 用 该 函数 的 线程 会 被 阻塞 直到 信和 号 量 的 值 为 正 数 。 所 以 ,在 
其 他 线程 因 调 用 sem_wait(&barrier_sem) 而 阻塞 前 ， 循 环 执行 sem_post(&count_sem) 并 
不 会 影响 程序 的 正确 性 ， 因 为 最 终 被 阻塞 的 线程 会 发 现 barrier_sem 的 值 为 正 数 ， 然 后 它们 会 
递减 该 值 并 继续 运行 下 去 。 

应 该 清楚 的 是 : 线程 被 阻塞 在 sem_wait 不 会 消耗 CPU 周期 ， 所 以 用 信和 号 量 实现 路 障 的 方 
法 比 用 忙 等 待 实现 的 路 障 性 能 更 佳 。 那 么 ， 如 果 我 们 想 要 执行 第 二 个 路 障 ， 可 以 重用 第 一 个 路 障 
的 数据 结构 吗 ? 

counter 是 可 以 重用 的 ， 因 为 在 所 有 线程 离开 路 障 前 ， 已 经 小 心地 重 置 它 了 。 另 外 ，count 
_Sem 也 可 以 重用 ， 因 为 线程 离开 路 障 前 ， 它 已 经 重 置 为 1 了 。 剩 下 的 barrier_sem， 既 然 一 个 
Sem_post 对 应 一 个 sem_wait ， 则 当 线 程 开 始 执行 第 二 个 路 障 时 ，barrier_sem 的 值 应 该 为 
0。 假设 有 2 个 线程 ,线程 0 在 第 一 个 路 障 处 因 调用 sem_wait(&barrier_sem) 而 阻塞 ， 此 时 线 
程 1 正 循环 执行 Sem_post。 假 设 操作 系统 发 现 线程 0 处 于 空闲 状态 便 将 其 挂 起 ， 接 着 线程 1 继 
续 执 行 至 第 二 个 路 障 ， 因 为 counter = =0， 所 以 它 会 执行 el se 后 面 的 语句 。 在 递增 counter 值 
后 ， 它 执行 sem_post(&count_sem) ， 然 后 执行 sem_wait(&barrier sem)。 

然而 ， 如 果 线 程 0 仍然 处 于 挂 起 状态 ， 那 么 它 就 不 会 递减 barrier_sem 值 ， 因 此 当 线 程 1 
抵达 Sem_wait(&barrier_sem) 时 ，barrier_sen 的 值 仍 然 为 1， 它 只 会 简单 地 将 barrier_ 
sem 减 1 并 继续 运行 下 去 。 这 会 导致 不 幸 的 结果 发 生 : 线程 0 被 重新 调度 运行 时 ， 会 被 阻塞 在 第 
一 个 sem_wait(&barrier_sem) 处 ， 而 线程 1 在 线程 0 进入 第 二 个 路 障 前 就 已 经 通过 了 该 路 
障 。 可 见 重用 barrier_sem 导致 了 一 个 竞争 条 件 。 


4.8.3 条 件 变量 

在 Pthreads 中 实现 路 障 的 更 好 方法 是 采用 条 件 变 量 。 条 件 变量 是 一 个 数据 对 象 ， 人 允许 线程 在 
某 个 特定 条 件 或 事件 发 生前 都 处 于 挂 起 状态 。 当 事件 或 条 件 发 生 时 ， 另 一 个 线程 可 以 通过 信和 号 来 
唤醒 挂 起 的 线程 。 一 个 条 件 变 量 总 是 与 一 个 互 斥 量 相关 联 。 

条 件 变 量 的 一 般 使 用 方法 与 下 面 的 伪 代 码 类 似 : 


Tock mutex; 
if condition has occurred 
signal thread(s); 
else { 
unlock the mutex and block; 
/x* when thread is unblocked, mutex is relocked */ 


| 

unlock mutex; 

Pthreads 线程 库 中 的 条 件 变 量 类 型 为 pthread_cond 七。 函数 

int pthreadcond_signal (pthread_cond_t* Cond-var-p xy inNn/Out */) 
的 作用 是 解锁 一 个 阻塞 的 线程 ， 而 函数 

int pthread-cond-broadcast(pthread-cond-ty Cond-var-p /* in/out */); 
的 作用 是 解锁 所 有 被 阻塞 的 线程 。 函 数 

int pthread-cond-wait( 


pthread-Cond-t#* Cond_var-p /x Tn/out */, 
pthread.mutex_.t* mutex-p /A# in/out */); 
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的 作用 是 通过 互 斥 量 mutex_p 来 阻塞 线程 ， 直 到 其 他 线程 调用 pthread_cond_signal 或 者 
pthread_cond_broadcast 来 解锁 它 。 当 线程 解锁 后 ， 它 重新 获得 互 斥 量 。 所 以 实际 上 ， 
pthread_cond_wait 相当 于 按 顺 序 执行 了 以 下 的 函数 ， 


ptnhread_-mutex-unl1ock(&mutex-p); 
wait_on_signal (&cond_var_p); 
pthread mutex.lock(&mutex_p); 


下 面 的 代码 是 用 条 件 变 量 实现 路 障 : 


/*¥ Shared 二/ 

int counter = 0; 
pthread_mutex.t mutex: 
pthread-cond-t cond-var ; 


voidr Threadwork(. . .) | 


/x Barrier */ 
pthread mutex_lock (8&mutex); 
Counter++; 
if (counter == thread.count) 1 
counter = 0: 
pthread_cond_broadcastt&cond_var): 
} else I 
while (pthread_cond wait(&cond_var, &mutex) != 0); 


} 
pthread_mutex_unlock(&mutex):; 
} 


注意 ， 除 了 调用 pthread_cond_broadcast 函数 ， 其 他 的 某 些 事件 也 可 能 将 挂 起 的 线程 解 
锁 〈Butenhof 的 书 [6] 第 80 页 有 详细 的 例子 说 明 )。 因 此 ， 肾 数 pthread_cond_wait 一 般 被 
放置 于 while 循环 内 ， 如 果 线 程 不 是 被 pthread_cond_broadcast 或 pthread_cond_sig- 
nal 函数 ， 而 是 被 其 他 事件 解除 阻塞 ， 那 么 能 检查 到 pthread_cond_wait 函数 的 返回 值 不 为 
0， 被 解除 阻塞 的 线程 还 会 再 次 执行 该 郴 数 。 

如 果 一 个 线程 被 唤醒 ， 那 么 在 继续 运行 后 面 的 代码 前 最 好 能 检查 一 下 条 件 是 否 满足 。 在 我 们 
的 例子 中 ， 如 果 调 用 pthread_cond_signal 天数 从 路 障 中 解除 阻塞 的 线程 后 ， 在 继续 运行 之 
前 ， 应 该 首先 查看 counter = =0 是 否 成 立 。 使 用 广播 唤醒 线程 尤其 需要 注意 ， 某 些 先 被 唤醒 的 
线程 会 运行 超前 并 改变 竞争 条 件 的 状态 ， 如 果 每 个 线程 在 唤醒 后 都 能 检查 条 件 ， 它 就 能 发 现 条 件 
已 经 不 再 满足 ， 然 后 又 进入 睡眠 状态 。 

注意 ， 为 了 路 障 的 正确 性 ， 必 须 调 用 pthread_cond_wait 来 解锁 。 如 果 没 有 用 这 个 函数 对 
互 斥 量 进行 解锁 ， 那 么 只 有 一 个 线程 能 进入 路 障 ， 所 有 其 他 的 线程 将 阻塞 在 对 pthread_mutex_ 
1ock 的 调用 上 ， 而 第 一 个 进入 路 障 的 线程 将 阻塞 在 对 pthread_cond_wait 的 调用 上 ， 从 而 程 
序 将 挂 起 。 

还 要 注意 的 是 ， 互 斥 量 的 语义 要 求 从 pthread_cond_wait 调用 返回 后 ， 互 斥 量 要 被 重新 加 
锁 。 当 从 ptnread_mutex_1ock 调用 中 返回 ， 就 能 “获得 ” 锁 。 因 此 ， 应 该 在 某 一 时 刻 通 过 调 
用 pthread_mutex_unlock“ 释 放 ” 锁 。 

与 互 斥 量 和 信和 号 量 一 样 ， 条 件 变量 也 应 该 初始 化 和 销毁 。 对 应 的 函数 是 


int pthread-cond_initi 
pthread.congd_t* cond.p /* OUt 本/ 
const pthread.condattrt*x Cond-attr-p /kk in x*/); 


int pthread.conddestroy(pthreadcond.t* cond.p /x* in/out */) 


我 们 不 使 用 pthread_cond_init 的 第 二 个 参数 (调用 函数 时 传递 NULL 作为 参数 值 ) 。 
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4.8.4 Pthreads 路 障 

在 继续 下 一 个 话题 之 前 ， 我 们 还 要 提 一 下 Open Group ， 这 个 正在 开发 POSIX 标准 的 小 组 ， 正 
在 为 Pthreads 定义 路 障 接口 。 然 而 ， 正 如 我 们 早先 提 到 的 ， 它 的 使 用 并 不 普及 ， 因 此 我 们 没有 在 
本 书 讨论 它 。 可 以 从 习题 4.9 中 获取 它 的 API 细节 。 


4.9 读 写 锁 

现在 ， 让 我 们 看 看 这 类 问题 ， 对 一 个 大 的 、 共 享 的 、 能 够 被 线程 简单 搜索 和 更 新 的 数据 结构 
的 访问 控制 。 为 了 表述 清晰 ， 假 设 共享 的 数据 结构 是 一 个 存储 int 型 数据 的 链表 ， 对 链表 的 操作 
有 Member、Insert 和 Delete。 
4.9.1 链表 函数 

链表 本 身 由 一 组 结 点 组 成 ， 每 个 结 点 是 一 个 拥有 两 个 成 员 的 结构 : 一 个 整 型 数据 和 一 个 指向 
下 一 个 结 点 的 指针 。 可 以 这 样 定义 这 个 结构 : 

struct 1ist-node-s 1! 


int data:; 
struct 1ist-node-sk next ; 


| 


图 4-4 链表 
程序 4-9 Member 范 数 








int Member(int value, struct list_node_s* head-p) 


! 

2 struct list_node.s* Curr-p = head.p; 

3 

4 while (Curr-p != NULL && curr_p—>data < value)} 
5 Currp = curr_p—>next:; 

6 

7 if (curr.p == NULL curr-p->data > value) 
8 return 0; 

9 else 

10 return 1; 

11 

12 /* Member */ 





一 个 典型 的 链表 如 图 4-4 所 示 。 一 个 struct 1ist_node_s * 类 型 的 指针 head_p 指向 链表 中 的 
第 一 个 结 点 。 最 后 一 个 结 点 的 next 成 员 是 NULL (在 图 中 用 斜 杠 〈/) 表示 )。 

Member 函数 (程序 4-9) 使 用 一 个 指针 遍历 链表 ， 直 到 它 找到 目标 值 或 者 知道 目标 值 不 在 
链表 中 。 因 为 链表 是 有 序 的 ， 所 以 当 curr_p 指针 值 为 NULL 时 ,或 者 当前 结 点 存储 的 数据 成 员 
大 于 目标 值 时 ， 就 发 生 后 一 种 情况 (目标 值 不 在 链表 中 )。 

Insert 函数 (程序 4-10) 通过 查找 正确 的 位 置 来 插入 新 结 点 。 因 为 链表 是 有 序 的 ， 所 以 它 
必须 一 直 查 找 直 到 找到 一 个 结 点 ， 它 的 data 成 员 大 于 要 插入 的 Value。 找 到 这 个 结 点 后 ， 将 新 
结 点 播 人 到 该 结 点 前 面 。 因 为 链表 是 单 向 的 ， 不 重新 遍历 一 遍 链 表 就 无 法 “ 回 退 ” 到 这 个 结 点 之 
前 的 位 置 。 有 多 个 方法 可 以 解决 这 个 问题 : 定义 第 二 个 指针 pred_p ， 指 向 当前 结 点 的 前 一 个 结 
点 。 但 当 我 们 找到 插入 的 位 置 并 退出 查找 循环 时 ，pred_p 指向 结 点 的 next 成 员 需 要 更 新 为 指 
向 新 揪 人 的 结 点 。 见 图 4-5。 

Delete 函数 (程序 4-11) 与 Insert 函数 相似 ， 因 为 它 在 查找 要 删除 结 点 的 同时 也 需要 跟 
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踪 当 前 结 点 的 前 驱 结 点 。 前 驱 结 点 的 next 成 员 也 需要 在 查找 结束 后 更 新 。 见 图 4-6。 
程序 4-10 “Insert 函数 











int Insert(int value, struct ]ist_node.s** head-p)t 


1 

2 struct 1}ist.node_s* Curr-p = *Nead_p: 

3 struct 1ist_node.s*x pred.p = NULL; 

4 struct 1ist-node-sk temp_p; 

5 

6 while (currp l= NULL && curr.p—>data < value}! 
7 pred-p = Curr-pi 

8 Curr-p = CuUrr-p 一 >next ; 

9 } 

10 

1 if (curr.p == NULL curr-p->data > value)l 
12 temp_-p = malloc(sizeof(struct Tist.node.s)) 
13 temp-p->data = value: 

14 temp-p—>next = curr.p; 

15 if (pred-p == NULL) /x* New first node #/ 
16 *head_p = temp-p: 

17 else 

18 pred.p—>next = temp-p: 

19 return 1 

20 } else { /x Yalue already in iist */ 

21 return 0; 

22 } 

23 } Ar Insert */ 








图 4-5 在 链表 中 插入 一 个 新 结 点 


4. 9.2 多 线程 链表 

现在 ， 让 我 们 试 着 在 一 个 Pthreads 程序 中 使 用 这 些 函 数 。 为 了 对 链表 共享 访问 , 将 head_p 定 
义 为 全 局 变量 。 这 将 简化 Member、Insert 和 Delete 的 函数 头 ， 因 为 不 需要 传递 head_p 或 一 个 指向 
head_p 的 指针 ， 只 需要 传递 要 插入 的 值 。 现 在 ， 如 果 有 多 个 线程 同时 执行 这 三 个 函数 ,结果 会 是 
什么 ? ， 





图 4-6 从 链表 中 删除 一 个 结 点 
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程序 4-11 Delete 函数 





int Delete(int value, struct 1ist-node-sx* head_p){ 


上 

2 struct 1ist-node-s+rk CUrr-p = *#head-p; 

3 struct 11st-node-s* pred-p = NULL; 

4 

5 while (curr-p != NULL && curr_p—>data < value)! 
6 pred-p = curr_p; 

7 curr-p = curr.p—>next; 

8 

9 

10 if (curr-p 1!= NULL && curr_p—>data == value)! 
1 if (pred-p == NULL) /* Deleting first node in list */ 
12 *head-p = curr.p—>next: 

13 free(curr.p); 

14 } elsel 

15 pred-p—>next = curr.p—>next; 

16 free(curr_p); 

17 } 

18 return 1; 

19 lelse{l /x Valve isn't in list */ 

20 return 0; 

21 

22 |} /x Delete */ 





多 个 线程 可 以 没有 冲突 地 同时 读 取 一 个 内 存单 元 ， 因 此 很 清楚 多 个 线程 能 够 同时 执行 Mem- 
ber 函数 。 另 一 方面 ，Delete 和 Insert 函数 需要 写 内 存 ， 如 果 试 图 让 这 类 操作 与 其 他 操作 同 
时 执行 ， 那 么 可 能 会 有 问题 。 例 如 ， 假 设 线程 0 正在 执行 Member (5) ， 与 此 同时 ， 线 程 1 在 执 
行 Delete (5$) 。 链 表 的 当前 状态 如 图 4-7 所 示 。 一 个 明显 的 问题 是 : 如 果 线 程 0 正在 执行 Mem- 
ber (5$) ， 它 将 报告 5 在 链表 中 ， 然 而 事实 上，5 可 能 在 线程 0 返回 前 就 被 删除 了 。 第 二 个 明显 
的 问题 是 : 如 果 线 程 0 正在 执行 Member(8) ， 线 程 1 可 能 会 在 线程 0 查找 到 存储 8 的 结 点 前 先 释 
放 存 储 5 的 结 点 。 尽 管 典 型 的 free 实现 不 覆盖 释放 的 内 存 ， 但 如 果 内 存在 线程 0 到 达 之 前 进行 
了 重新 分 配 ， 那 么 将 会 产生 严重 的 问题 。 例 如 ， 如 果 内 存 被 重新 分 配 用 于 其 他 用 途 ， 而 不 是 作为 
链表 的 结 点 ， 那 么 线程 0 会 “认为 ”next 成 员 已 经 设置 为 垃圾 ,并且 在 执行 


currp = curr_p—>next; 


后 , 对 curr_p 的 引用 可 能 会 导致 段 违 规 。 





图 4-7 被 两 个 线程 同时 访问 的 链表 


通常 ， 可 以 把 问题 归结 为 : 在 执行 Insert 或 Delete 的 同时 执行 其 他 操作 。 多 线程 同时 执 
行 Member 操作 ， 即 读 链 表 结 点 是 没有 问题 的 ; 但 当 多 个 线程 同时 访问 链表 且 至 少 有 一 个 线程 正 
在 执行 Insert 或 Delete 操作 ， 即 写 链表 结 点 时 ， 是 不 安全 的 〈 见 习题 4. 11) 。 

-怎么 处 理 这 个 问题 呢 ?. 在 对 链表 进行 访问 前 先 加 锁 是 一 个 显而易见 的 方案 。 例 如 ， 调 用 这 三 
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个 函数 时 需要 用 互 斥 量 来 保护 ， 所 以 可 以 执行 以 下 代码 来 代替 简单 的 Member 调用 : 


Pthread-mutex-l1ock(&l1ist-mutex); 
Member(value); 
Pthread_mutex-unlock(&1ist-mutex)i 


这 个 方案 也 带 来 显而易见 的 问题 : 必须 串 行 访问 链表 。 如 果 对 链表 大 部 分 的 访问 操作 是 
Member ， 那 么 就 失去 了 开发 并 行 性 的 机 会 。 另 一 方面 ， 如 果 对 链表 大 部 分 的 访问 操作 是 Insert 
和 Delete， 这 可 能 是 最 好 的 解决 方案 ， 因 为 大 部 分 的 操作 都 需要 串 行 执行 ， 而 这 个 解决 方案 很 

8 另 一 个 可 选择 的 方案 是 “ 细 粒 度 ” 锁 。 可 以 对 链表 上 的 单个 结 点 上 锁 ， 而 不 是 对 整个 链表 上 
锁 。 例 如 ， 可 以 在 链表 结 点 的 结构 中 添加 一 个 互 斥 量 ; 


struct list node.s 1 
int data: 
struct jisz-node-s NGXT; 
pthread.mutex.t mutex: 

} 


现在 ， 每 次 访问 一 个 结 点 时 ， 必 须 先 对 该 结 点 加 锁 。 注 意 ， 这 要 求 有 一 个 与 head_p 指针 相 
关联 的 互 斥 量 。 因 此 ， 可 以 像 程序 4-12 所 示例 的 那样 实现 Member 函数 。 这 个 实现 比 原来 的 
Member 函数 实现 更 复杂 。 它 还 比 原 来 的 实现 慢 ， 因 为 每 次 访问 一 个 结 点 时 ， 都 必须 对 结 点 加 锁 

[Eg 和 解锁 ， 所 以 每 一 次 的 结 点 访问 至 少 增加 两 次 函数 调用 ; 另外 ， 如 果 线 程 需要 等 待 锁 ， 又 会 增加 
附加 的 延迟 。 更 进一步 会 产生 的 问题 是 ， 每 个 结 点 都 增加 了 一 个 互 斥 量 域 ， 这 必然 增加 了 整个 链 
表 对 存储 量 的 需求 。 但 另 一 方面 ， 细 粒度 的 锁 可 能 真 的 是 一 个 更 接近 需求 的 方案 。 因 为 只 对 当前 
感 兴趣 的 结 点 加 锁 ， 所 以 多 个 线程 能 同时 访问 链表 的 不 同 部 分 ， 不 管 它们 在 执行 什么 操作 。 


程序 4-12 ”用 每 个 链表 结 点 拥有 一 个 互 斥 量 的 方法 来 实现 Member 函数 


int Member(int value) { 
struct list.node.s* temp-p; 





pthread_mutex-lock(&head_p-mutex); 
temp-p = head-p; 
while (temp-p != NULL && temp-p—>data < value) { 
if (temp-p—>next != NULL) 
pthread mutex.lock(&( temp-.p~—>next—>mutex)):; 
if (temp-p == head-p) 
pthread-mutex-unjock(&head-p-mutex); 
pthread-mutex-unlock(&(temp-p 一 >mutex)) ; 
temp-p = temp-p—>next: 


if (temp-p == NULL 1] temp_p—>data > value) 1{ 
if (temp-pP == head-p) 
pthread_-mutex-unlock(&head-p_mutex) ; 
if (temp-p != NULL) 
pthread mutex-unlock(&(temp-p—>mutex)); 
return 0; 
} else 1 
if (temp-p == head-p) 
pthread-mutex-unlock(&head-p-mttex); 
pthread_mutex_unlock(&(temp-p—>mutex)):; 
return 1: 


} 
} /A#* Member #*/ 





4. 9. 3 Pthreads 读 写 锁 
前 面 我 们 介绍 了 两 种 实现 多 线程 链表 的 方法 ， 这 两 种 方法 都 不 让 正在 执行 Member 函数 的 线 
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程 还 可 以 同时 访问 链表 的 任意 结 点 。 第 一 个 方法 在 任 一 时 刻 只 允许 一 个 线程 访问 整个 链表 ， 第 二 
个 方法 在 任 一 时 刻 只 允许 一 个 线程 访问 任 一 给 定 结 点 。Pthreads 的 读 写 锁 可 以 作为 另 一 种 可 选 方 
案 。 除 了 提供 两 个 锁 函 数 以 外 ， 读 写 锁 基 本 上 与 互 斥 量 差不多 。 这 两 个 函数 ， 第 一 个 为 读 操作 对 
读 写 锁 进 行 加 锁 ， 第 二 个 为 写 操作 对 读 写 锁 进 行 加 锁 。 多 个 线程 能 通过 调用 读 锁 函 数 而 同时 获得 
锁 ， 但 只 有 一 个 线程 能 通过 写 锁 函 数 获得 锁 。 因 此 ， 如 果 任 何 线程 拥有 了 该 锁 ， 则 任何 请 求 写 锁 
的 线程 将 阻塞 在 写 锁 函 数 的 调用 上 。 而 且 ， 如果 任 何 线程 拥有 了 写 锁 ， 则 任何 想 获 取 读 或 写 锁 的 
线程 将 阻塞 在 它们 对 应 的 锁 函 数 上 。 : 
使 用 Pthreads 的 读 写 锁 ， 能 用 下 列 的 代码 保护 链表 函数 (忽略 函数 返回 值 ) : 


pthread-rwlock-.rdlock(&rwlock); 
Member(value): 
pthread_rwlacck-unlocktgrwiock yi: 


pthread_rwlvock wrlock(&rwlock): 
Insert(value); 
pthread_rwlock-unlock(&rwiock); 


pthread_rwiock_wrlock(t&rwiock):; 
Delete(value); 
pthread_rwlock_unlock(&rwlock) 


这 个 新 的 Pthreads 函数 的 语法 是 : 


int pthread.rwlock.rdlock(tpthread_rwlock.tx rwlockp /* in/out */); 
int pthread_rwlockwrlock(pthread_ rwlockt* rwlockp /# jin/Out *r 1; 
int pthread_rwlock-unlocktpthread_rwlockt* rwlockp yy in/out */); 


就 像 它 们 的 名 字 所 表示 的 一 样 ， 第 一 个 函数 为 读 加 锁 ， 第 二 个 为 写 加 锁 ， 最 后 一 个 用 于 解锁 187 
与 互 斥 量 一 样 ， 读 写 锁 在 使 用 前 应 该 初始 化 ， 在 使 用 后 应 应 该 销毁 。 下 面 的 函数 用 来 初始 化， 


int pthreadrwiock.init( 


pthread_rwiock-t* rwWiock-p /x* Out */, 
Const pthread.rwlockattr t*» attr.p /和 in */) 


与 互 斥 量 一样 ， 不 使 用 第 二 个 参数 ， 调 用 时 将 传递 NULL 值 。 下 面 的 函数 用 来 释放 一 个 读 写 锁 ; 


int pthread-rwlock-destroy(pthread-rw10CK-t*# rwlockp /* in/out */); 








4.9.4 不 同 实现 方案 的 性 能 

当然 ， 我 们 想 知道 这 三 个 实现 哪个 是 “最 好 ”的 ， 因 此 我 们 编写 了 一 个 小 程序 ， 其 中 包括 这 
三 种 实现 。 在 程序 中 ， 主 线程 首先 向 空 链 表 中 插入 用 户 指定 数量 的 随机 生成 的 键 值 。 被 主线 程 启 
动 后 ， 每 个 线程 对 链表 执行 用 户 指定 数量 的 操作 。 用 户 还 要 指定 每 类 操作 (Member 、Insert、 
Delete) 所 占 的 百分比 。 然 而 ， 哪 个 操作 发 生 以 及 对 哪个 键 值 进行 操作 取决 于 一 个 随机 数 生 成 
器 。 例 如 ， 用 户 可 能 会 指定 : 插入 1000 个 键 值 到 初始 的 空 链表 中 ， 线 程 总 共 执 行 100 000 个 操 
作 。 而 且 ， 她 可 能 还 会 指定 80% 的 操作 是 Member,，15% 是 Insert， 剩 下 的 $% 是 Delete。 然 
而 ， 由 于 操作 是 随机 生成 的 ， 所 以 线程 可 能 执行 了 79 000 个 Member 调用 , 15 500 个 Insert 调 
用 ，5500 个 Delete 调用 。 

表 4-3 和 表 4-4 列 出 了 对 一 个 初始 包含 1000 个 键 值 的 链表 执行 100 000 个 操作 所 花 的 时 间 
(单位 为 秒 ) 。 两 组 数据 都 在 一 个 拥有 4 个 双核 处 理 器 的 系统 上 测 得 。 

表 4-3 说 明了 当 99. 9 细 的 操作 是 Member ， 剩 下 的 0.1% 被 Insert 和 Delete 操作 均 分 时 程 
序 的 执行 时 间 。 表 4-4 说 明了 80% 的 操作 是 Member ，10% 是 Insert，10% 是 Delete 操作 所 花 
的 时 间 。 我 们 注意 到 : 在 两 个 表 中 ， 当 线程 数 为 1 时 ， 读 写 锁 与 单 互 斥 量 实现 的 执行 时 间 是 一 样 [33 
的 。 这 很 好 理解 : 因为 没有 对 读 写 锁 和 互 斥 量 的 竞争 ， 这 些 操作 是 串 行 执行 的 ， 这 两 种 实现 的 开 
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销 都 包含 对 链表 进行 操作 前 的 函数 调用 和 操作 后 的 函数 调用 。 另 一 方面 ， 使 用 每 个 结 点 一 个 锁 的 
实现 比较 慢 。 这 也 是 好 理解 的 ， 因 为 每 次 单个 结 点 被 访问 ， 将 会 有 2 个 癌 作 (一次 加 锁 、 一 次 解 
锁 ) ， 因 此 开销 更 大 。 


表 4-3 链表 操作 时 间 : 1000 个 初始 键 值 ，100 000 个 操作 ，99. 9% Member ， 
0. 05% Insert, 0.05% Delete 









读 写 锁 
整个 链表 一 个 互 斥 量 
每 个 结 点 一 个 互 斥 量 


















整个 链表 一 个 互 斥 量 
每 个 结 点 一 个 互 斥 量 











在 多 个 线程 的 情况 下 ， 每 个 结 点 一 个 互 斥 量 的 实现 仍然 维持 其 低 效 性 。 与 其 他 两 个 实现 相 
比 ， 过 多 的 加 锁 和 解锁 使 这 个 实现 开销 太 大 。 

两 个 表格 最 重要 的 不 同 之 处 也 许 在 于 : 在 多 线程 情况 下 ， 读 写 锁 和 单 互 斥 量 实现 的 相对 性 
能 。 当 Insert 和 Delete 操作 十 分 少时 ， 读 写 锁 远 好 于 单 互 斥 量 实 现 。 因 为 单 互 斥 量 实现 串 行 
化 所 有 的 操作 ， 这 意味 着 ， 如 果 Insert 和 Delete 十 分 少时 ， 读 写 锁 在 对 链表 的 并 发 访问 上 做 
得 很 好 。 另 一 方面 ， 如 果 有 相对 多 的 Insert 和 Delete 时 (例如 ， 大 约 每 个 10% ) ， 读 写 锁 和 
单 互 斥 量 实现 的 性 能 几乎 没有 差别 。 因 此 对 链表 操作 来 说 ， 读 写 锁 能 够 提供 很 大 的 性 能 提升 ， 但 
只 有 在 Insert 和 Delete 操作 十 分 少 的 时 候 才 行 。 

我 们 还 注意 到 : 如 果 使 用 一 个 互 斥 量 或 者 每 个 结 点 一 个 互 斥 量 ， 那 么 程序 在 多 线程 下 运行 总 
是 比 只 运行 一 个 线程 时 更 快 或 者 一 样 快 。 而且， 当 insert 和 delete 的 数量 相对 较 大 时 ， 读 写 
锁 的 多 线程 程序 也 比 单线 程 快 。 这 对 于 单 互 斥 量 实现 来 说 并 不 奇怪 ， 因 为 对 链表 的 有 效 访 问 是 串 
IE9 行 的 。 对 于 读 写 锁 实现 ， 当 有 大 量 写 锁 操 作 时 ， 会 出 现 太 多 的 锁 竞争 ,综合 性 能 将 下 降 得 很 快 。 

总 之 ， 读 写 锁 实现 比 单 互 斥 量 和 每 个 结 点 一 个 互 斥 量 的 实现 更 好 。 除 非 insert 和 delete 
操作 所 占 的 比例 很 小 ， 否 则 串 行 实现 将 是 更 好 的 方案 。 


4.9.5 实现 读 写 锁 

原来 的 Pthreads 标准 并 不 包含 读 写 锁 ， 因 此 一 些 早 期 描述 Pthreads 的 文本 包括 了 读 写 锁 的 实 
现 (例如 ， 见 [6])。 典型 的 读 写 锁 实 现 定 义 了 一 个 数据 结构 ， 该 结构 使 用 两 个 条 件 变 量 (一 
个 对 应 “读者 ”， 另 一 个 对 应 “ 写 者 ”") 和 一 个 互 斥 量 。 这 个 数据 结构 还 包含 一 些 成 员 ， 分 别 用 
于 表示 : 

(1) 多 少 读者 拥有 锁 ， 即 有 多 少 线程 同时 在 读 。 





日 根据 Butenhof 所 提出 的 实现 方法 的 基本 大 网 。 
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(2) 多 少 读者 正在 等 待 获取 锁 。 

(3) 是 否 有 一 个 写 者 拥有 锁 。 

(4) 多 少 写 者 正在 等 待 获取 锁 。 

互 斥 量 用 于 保护 读 写 锁 的 数据 结构 : 无 论 何 时 一 个 线程 调用 其 中 的 任意 一 个 函数 ( 读 锁 、 写 
锁 、 解 锁 ) ， 它 必须 首先 锁 互 斥 量 ， 并 且 无 论 何 时 一 个 线程 完成 了 这 些 函 数 调 用 中 的 一 个 ， 它 必 
须 解 锁 互 斥 量 。 在 获取 互 斥 量 后 ， 线 程 检查 合适 的 数据 成 员 来 决定 接 下 来 于 什么 。 例 如 ， 如 果 它 
想 要 进行 读 访 问 ， 就 检查 是 否 有 一 个 写 者 当前 拥有 锁 。 如 果 没 有 ， 它 对 活动 读者 〈 即 同时 读 的 线 
程 ) 的 数量 加 1， 然 后 继续 执行 随后 的 操作 。 如 果 有 一 个 活动 写 者 〈 有 一 个 写 者 拥有 锁 ， 正 在 
写 ) ， 就 为 等 待 获取 锁 的 读者 的 数量 加 ! ， 并 且 在 读者 条 件 变 量 上 启动 一 个 条 件 等 待 。 当 它 被 条 件 
唤醒 后 ， 它 将 正在 等 待 的 读者 的 数量 减 1， 对 活动 读者 的 数量 加 1 ， 并 继续 执行 随后 的 操作 。 写 
锁 函 数 的 实现 与 读 锁 函数 相 类 似 。 

解锁 函数 的 操作 取决 于 线程 是 一 个 读者 还 是 一 个 写 者 。 如 果 线 程 是 一 个 读者 ， 且 没有 其 他 的 
活动 读者 ， 并 且 一 个 写 者 正在 等 待 ， 那 么 它 就 在 返回 前 发 送信 号 通知 写 者 ， 使 写 者 继续 后 继 的 操 
作 。 另 一 方面 ， 如 果 线 程 是 写 者 ， 则 可 能 同时 有 读者 和 写 者 正在 等 待 ， 因 此 线程 需要 决定 它 倾向 
于 读者 还 是 写 者 。 因 为 写 者 必须 互 斥 访问 ， 很 可 能 写 者 更 难 获得 锁 。 因 此 ， 许 多 实现 给 予 写 者 优 
先 权 。 编 程 作 业 4. 6 进一步 探讨 了 这 方面 的 内 容 。 


4. 10 缓存、 缓存 一 致 性 和 伪 共享 


多 年 来 ， 处 理 器 的 执行 速度 比 访问 主 存 中 数据 的 速度 快 得 多 。 如 果 一 个 处 理 器 每 次 操作 必须 
从 主 存 中 读数 据 ， 那 么 它 将 花费 大 量 的 时 间 等 待 数据 从 内 存 中 取出 后 再 到 达 处 理 器 。 为 了 处 理 这 
个 问题 ， 芯 片 设 计 人 员 已 经 为 处 理 器 增加 了 相对 快速 的 内 存 。 这 个 更 快 的 内 存 就 是 缓存 (cache 
memory ) 。 

缓存 的 设计 考虑 了 时 间 和 空间 局 部 性 原理 : 如 果 一 个 处 理 器 在 时 间 上 访问 内 存 位置 x， 那 么 
很 可 能 它 在 一 个 接近 : 的 时 间 访 问 接近 * 的 内 存 位 置 。 如 果 一 个 处 理 器 需要 访问 主 存 位 置 *， 那 么 
就 不 只 是 将 x 的 内 容 传人 出) 主 存 ， 而 是 将 一 块 包 含 x 的 内 存 块 传 人 (出 ) 主 存 。 我 们 将 这 样 
一 块 内 存 称 为 缓存 行 或 者 缓存 块 。 

在 2.3.4 节 中 ， 我 们 已 经 看 到 缓存 的 使 用 会 对 共享 内 存 有 很 大 的 影响 。 这 是 为 什么 ? 首先 ， 
考虑 下 列 情形 : 假设 x 是 一 个 共享 变量 ， 值 为 5， 线 程 0 和 1 将 x 从 内 存 读 和 人 它们 各 自 的 缓存 ， 
因为 它们 都 想 要 执行 语句 : 

My_Yy = Xx; - 

这 里 ，my_y 是 一 个 被 两 个 线程 定义 的 私有 变量 。 现 在 假设 线程 0 执行 语句 : 

X 十 十 ; 

最 后 ， 假 设 线程 1 正在 执行 : 

my_Z = Xx; 
my_z 是 另 一 个 私有 变量 。 

my_z 的 值 是 多 少 昵 ? 是 5$ 吗 ? 或 者 是 6 吗 ? 问题 在 于 : x (至 少 ) 有 3 个 副本 ,一 个 在 主 存 
中 ， 一 个 在 线程 0 的 缓存 中 ， 一 个 在 线程 1 的 缓存 中 。 当 线程 0 执行 x+ + 时 ， 主 存 和 线程 1 组 
存 中 的 值 会 发 生 什 么 变化 ? 这 是 缓存 一 致 性 问题 ， 我 们 在 第 2 章 讨 论 过 。 大 部 分 系统 实现 会 让 组 
存 感 知 到 它 缓存 的 数据 有 否 变 化 。 在 线程 0 执行 x*+ + 后 ， 线 程 1 中 x 的 缓存 行将 被 标记 为 无 效 ， 
在 赋值 ny_z = x 前 ， 运行 线程 1 的 核 就 能 看 到 它 所 存储 的 x 的 副本 已 经 过 期 了 。 这 样 ， 运 行 线 


龟 这 部 分 内 容 在 第 5 章 也 有 讨论 ， 如 果 你 已 经 读 了 那 一 章 ， 可 以 跳 过 这 部 分 。 


128， 并 行程 序 设计 导论 





程 0 的 核 不 得 不 更 新 x 在 主 存 中 的 副本 ， 然 后 运行 线程 1 的 核 再 从 主 存 得 到 x 的 更 新 值 。 更 多 的 
细节 见 第 2 章 。 

缓存 一 致 性 可 能 会 对 共享 内 存 系统 的 性 能 有 巨大 的 影响 。 为 了 说 明 这 一 点 ， 我 们 再 来 看 看 
Pthreads 矩阵 - 向 量 乘 法 的 例子 : 主线 程 初始 化 一 个 m xn 的 矩阵 和 4， 以 及 一 个 n 维 的 向 量 x。 每 
个 线程 负责 计算 乘积 向 量 y =4x 的 m/i 个 部 分 。(t 是 线程 数 。) 4、x、y、m 和 的 数据 结构 都 是 
共享 的 。 为 了 易于 参考 ， 我 们 在 程序 4-13 中 重 写 了 代码 。 

如 果 7 是 串 行程 序 执行 的 时 间 ，7%#5 是 并 行程 序 执行 的 时 间 ， 并 行程 序 的 效率 下 是 加 速 比 
5 除 以 线程 数 : 





tx 了 并行 
因为 5<1， 所 以 E<1。 表 4-5 列举 了 对 于 不 同 的 数据 集 和 不 同 的 线程 数 ， 和 矩阵 - 向 量 乘法 程序 的 
运行 时 间 和 效率 。 

在 每 一 个 样 例 中 ， 浮 点 数 加 法 和 乘法 的 总 数 是 64 000 000， 所 以 如 果 只 考虑 算术 运算 ， 可 以 
预测 到 : 采用 单线 程 来 计算 这 3 种 输入 所 花费 的 时 间 相 差不多 。 然 而 ， 很 明显 地 ， 情 况 并 不 是 这 
样 。 单 线程 运行 时 ，8 000 000 x 8 的 系统 比 8000 x 8000 的 系统 需要 多 14% 的 时 间 ，8 x 8 000 000 
的 系统 比 8000 x8000 的 系统 需要 多 28% 的 时 间 。 这 个 差别 部 分 归 因 于 缓存 的 性 能 。 


程序 4-13 ”Pthreads 和 矩阵 - 向量 乘 法 程序 








void *pPth-mat_vect(voijidy rank) 1 


上 

2 iong my-rank = (1ong) rank; 

3 int i, j; 

4 int local.m = m/thread_count; 

5 int my-first_row = my_rank*1l0ocal_m; 

6 int my.last_row = (my-rank+l)*local .mo— 1; 

7 

8 for (i = my_first_row; i <= my-jast_row; i++) { 
9 yti] = 0.0; 

10 for (j = 0; j < ni j++) 


1 y[i] += Ar[i[j]xx[rj]; 


12 ] 


14 return NULL 
I5 } A/* Pthmat_vect */ 





表 4-5 矩阵 -向 量 乘 法 的 运行 时 间 和 效率 ( 时 间 以 秒 为 单位 ) 












8000 x8000 






效率 














当 一 个 核 试图 更 新 一 个 不 在 缓存 中 的 变量 时 ， 就 会 发 生 写 缺失 (write-miss) ， 处 理 器 必须 访 
问 主 存 。 缓 存 分 析 器 (例如 Valgrind [49]) 发 现 当 程序 运行 8 000 000 x8 输入 时 ， 比 其 他 2 种 输 
人 发 生 更 多 的 缓存 写 缺 失 。 大 部 分 写 缺 失 发 生 在 第 9 行 。 因 为 结果 向 量 y 的 元 素数 量 远 远大 于 其 
他 两 个 输入 的 结果 向 量 元 素 (8 000 000 与 8000 或 8) ， 而 且 每 个 元 素 必 须 被 初始 化 ， 因 此 这 一 行 
减 慢 了 8 000 000 x8 个 输入 程序 的 执行 并 不 令 人 惊讶 。 
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当 一 个 核 试图 访问 一 个 不 在 缓存 中 的 变量 时 ， 就 会 发 生 读 缺 失 (〈read-miss) ， 处 理 器 必须 访 
问 主 存 。 缓 存 分 析 器 发 现 当 程序 运行 8 x8 000 000 输入 时 ， 比 其 他 2 种 输入 会 发 生 更 多 的 读 缺 失 。 
这 些 失效 都 发 生 在 第 11 行 ， 对 这 个 程序 的 深入 研究 (见习 题 4.15) 表明 : 不 同 之 处 主要 在 于 对 
x 的 读 。 这 同样 不 令 人 惊讶 ， 对 这 个 输入 ，x 需要 读 人 8 000 000 个 元 素 ， 而 另外 两 种 输入 的 x 只 
有 8000 或 8 个 元 素 需 要 读 人 。 

需要 注意 的 是 ， 还 会 有 其 他 的 因素 影响 单线 程 程序 在 不 同 输入 情况 下 的 相对 性 能 。 例 如 ， 我 
们 还 没有 考虑 虚拟 内 存 ( 见 2.2.4 节 ) 是 否 会 影响 程序 不 同 输入 的 性 能 。CPU 访问 主 存 中 页 表 的 
频率 是 多 少 ? 

我 们 更 感 兴趣 的 是 ， 当 线程 数 增加 时 ， 程 序 执行 的 效率 有 很 大 的 不 同 。 输 入 为 8 x 8 000 000 
的 双 线 程 程序 的 效率 比 输 入 为 8 000 000 x8 和 8000 x 8000 的 程序 效率 几乎 低 20% 。 输 入 为 8 x 
8 000 000 的 四 线程 程序 比 输入 为 8 000 000 x8 的 程序 效率 低 约 60% ， 比 输入 为 8000 x 8000 的 程 
序 的 效率 低 超过 60% 。 我 们 还 注意 到 输入 为 8 x8 000 000 的 单线 程 程序 也 是 最 慢 的 ， 因 此 ， 效 率 
公式 中 的 分 子 也 更 大 : 

人 串 行 运行 时 间 
并 行 效率 = 组 程 数 x 并 行 运行 时 间 
为 什么 输入 为 8 x8 000 000 的 多 线程 程序 的 性 能 差 那么 多 ? 

答案 是 : 缓存 的 原因 。 我 们 来 看 一 下 四 线程 热 行 的 情况 。 输 入 为 8 000 000 x8 时 ，y 有 
8 000 000 个 元 素 ， 每 个 线程 分 配 到 2 000 000 个 元 素 。 输 入 为 8000 x 8000 时 ， 每 个 线程 分 配 到 
2000 个 y 的 元 素 ， 输 入 为 8 x8 000 000 时 ， 每 个 线程 分 配 到 2 个 元 素 。 在 我 们 使 用 的 系统 上 ， 一 
个 缓存 行 是 64 个 字 节 ，y 的 类 型 是 双 精 度 浮 点 数 ， 为 8 个 字 节 ， 一 个 缓存 行 能 存储 8 个 双 精 度 浮 
点 数 。 

缓存 一 致 性 是 “ 行 级 ”的 。 也 就 是 说 ， 每 次 缓存 行 中 的 任何 一 个 值 被 改写 了 ， 如 果 该 行 也 存 
在 另 一 个 处 理 器 的 缓存 中 ， 不 只 是 被 写 的 那个 值 ， 在 那个 处 理 器 上 的 整个 缓存 行 都 会 无 效 。 我 们 
使 用 的 系统 有 2 个 双核 处 理 器 ， 每 个 处 理 器 有 它 自 己 的 缓存 。 假 设 现在 将 线程 0 和 线程 1 分 配给 
一 个 处 理 器 ,线程 2 和 3 分 配给 另 一 个 处 理 器 。 同 时 假设 对 于 8 x8 000 000 的 问题 ， 所 有 的 y 都 
存在 一 个 缓存 行 中 。 每 一 次 写 y 的 某 个 元 素 ， 就 会 让 另 一 个 处 理 器 中 的 缓存 行 无 效 。 例 如 ， 每 次 
线程 0 用 以 下 语句 更 新 y[0] : 

y[il += A[Li][j]*x[j]; 

如 果 线 程 2 或 线程 3 也 执行 这 个 代码 ( 用 于 更 新 y 的 其 他 元 素 ) ， 它 就 不 得 不 重新 加 载 y。 每 个 
线程 要 更 新 每 一 个 元 素 ， 共 更 新 8 000 000 次 。 我 们 看 到 ， 在 这 种 线程 分 配 和 缓存 行 分 配 的 配置 
下 ， 所 有 线程 都 不 得 不 重新 加 载 y 许多 次 。 这 种 情况 在 一 个 元 素 只 被 一 个 线程 访问 的 情况 下 也 会 
发 生 ， 例 如 ， 只 有 线程 0 访问 y[0]。 

每 个 线程 都 会 对 分 配给 它 的 y 元 素 进 行 更 新 ， 两 个 线程 总 共 更 新 16 000 000 次 。 尽 管 这 些 更 
新 的 大 部 分 不 会 迫使 线程 访问 主 存 ， 但 其 中 仍然 会 有 很 多 次 访问 主 存 。 这 称 为 伪 共 享 (false sha- 
ring) 。 假 设 2 个 拥有 各 自 缓存 的 线程 访问 属于 同一 缓存 行 的 不 同 变量 。 再 进一步 假设 至 少 有 一 个 
线程 更 新 了 它 的 变量 ， 那 么 即使 没有 线程 写 另 一 个 线程 正在 使 用 的 变量 ， 缓 存 控制 器 仍然 会 使 整 
个 缓存 行 无 效 并 强制 线程 从 内 存 获 取 变 量 的 值 。 线 程 并 不 共享 任何 东西 〈 除 了 一 个 缓存 行 ) ， 但 
线程 对 内 存 访问 的 行为 好 像 它 们 正在 共享 一 个 变量 ,因此 把 这 种 现象 命名 为 伪 共 享 。 

为 什么 伪 共 享 对 其 他 情况 的 输入 就 不 是 问题 ? 我 们 来 看 一 下 输入 为 8000 x 8000 会 发 生 什 么 。 
假设 将 线程 2 分 配给 一 个 处 理 器 ， 线 程 3 分 配给 另外 一 个 处 理 器 (实际 上 ， 我 们 并 不 知道 哪些 线 
程 分 配给 哪些 处 理 器 ， 具 体 参见 习题 4.16)。 线 程 2 负责 计算 : 

y[4000],y[4001],:…,y[5999]] 
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线程 3 负责 计算 : 
y[6000],y[6001],…,y[7999 ] 
如 果 一 个 缓存 行 包含 8 个 连续 的 双 精 度 浮 点 数 ， 唯 一 可 能 会 发 生 伪 共 享 的 地 方 是 两 个 线程 各 自分 
配 到 的 值 之 间 的 接口 。 例 如 ， 一 个 缓存 行 如 果 包 含 : 
y[5996],y[5997],y[5998],y[5999],y[6000],y[6001],y[6002],y[6003] 
伪 共 享 可 能 会 发 生 在 这 个 缓存 行 上 。 然 而 ,线程 2 在 它 的 for i 循环 的 最 后 访问 的 是 : 
y[5996],y[5997],y[5998],y[5999] 
线程 3 在 for i 循环 的 开始 访问 : 
y[6000],y[6001],y[6002],y[6003] 
因此 很 可 能 当 线程 2 访问 yL5996] 时 ,线程 3 已 经 完成 了 所 有 对 这 四 个 的 访问 : 
y[6000],y[6001],y[6002],y[6003] 
类 似 地 ， 当 线程 3 访问 y[6003]j 时 ， 很 可 能 线程 2 还 没有 开始 访问 : 
y[5996],y[5997],y[5998],y[5999] 
因此 ,在 输入 为 8000 x 8000 时 ，y 元 素 的 伪 共享 不 会 是 重大 问题 。 类 似 地 ， 在 输入 为 
8 000 000 x8 时 ，y 的 伪 共 享 也 不 太 可 能 会 引起 问题 。 我 们 还 注意 到 ; 不 必 太 担心 A 或 者 x 的 伪 
共享 ， 因 为 它们 的 值 从 来 不 会 被 矩阵 - 向 量 相 乘 的 代码 更 新 。 
这 也 带 来 了 问题 : 怎样 才能 在 和 矩阵 - 向 量 乘法 代码 中 避免 伪 共 享 。 一 个 可 能 的 解决 方案 是 用 
假 的 元 素 “ 填 充 ”y 向 量 ， 从 而 保证 一 个 线程 的 更 新 不 会 影响 另 一 个 线程 的 缓存 行 。 另 一 和 
方案 是 每 个 线程 在 乘法 循环 时 使 用 它 自己 的 私有 存储 器 ， 然 后 在 完成 后 更 新 共享 存储 器 。 见 
题 4.18。 


4. 11 线程 安全 性 ? 

接 下 来 我 们 来 了 解 在 共享 内 存 编程 中 另 一 个 可 能 会 发 生 的 问题 : 线程 安全 性 。 如 果 一 个 代码 
块 能 够 被 多 个 线程 同时 执行 而 不 引起 问题 ， 那 么 它 是 线程 安全 的 。 

例如 ， 假 设 要 使 用 多 个 线程 来 对 一 个 文件 进行 “分 词 "。 假 设 文件 由 普通 的 英语 文本 构成 ， 
要 分 析出 的 是 被 空格 、tab 和 换行 符 分 隔 的 连续 的 字符 序列 。 解 决 此 问题 的 一 个 简单 的 方法 是 : 
将 输入 文件 分 成 行 ， 把 每 一 行 按 顺序 分 给 线程 : 第 一 行 给 线程 0， 第 二 行 给 线程 1，…， 第 上 行 给 
线程 :1-1， 第 ;+1 行 给 线程 0 等 。 

我 们 可 以 通过 使 用 信号 量 将 访问 输入 行 品行 化 。 接着 ， 在 一 个 线程 读 了 一 行 输入 后 ， 它 就 能 
够 对 这 一 行进 行 分 词 。 一 个 方法 是 使 用 string. h 中 的 strtok 函数 ， 它 的 原型 如 下 : 


Char*x strtokt 
Char string /# IN/CUut */, 
const char* separators /*# in */A); 


它 的 用 法 有 些 不 同 寻 常 : 第 一 次 调用 它 时 ，string 参数 应 该 是 要 被 分 词 的 文本 ， 在 我 们 的 例子 
中 就 是 一 行 输入 。 后 面 调用 它 时 ，string 参数 应 该 为 NULL。 它 的 思想 是 : 在 第 一 次 调用 时 ， 
strtok 缓存 一 个 指向 string 的 指针 ， 在 接 下 来 连续 的 调用 中 ，strtok 返回 从 缓存 的 副本 中 
分 隔 出 的 连续 的 词 。 将 词 分 隔 开 的 分 隔 符 通过 separators 参数 传人 函数 。 应 该 将 字符 串 ”\t\ 
n” 作 为 separators 参数 传人 函数 。 





后 ”这 部 分 内 容 在 第 5 章 中 也 有 论述 ， 如 果 你 已 经 读 过 那 一 章 ， 你 可 以 跳 过 这 部 分 。 


第 4 章 用 Pthreads 进行 共享 内 存 编程 131 


程序 4-14 ”多 线程 分 词 器 的 第 一 个 版 本 的 程序 








1 voidx Tokenize(voidx rank) 1 

2 long my-rank = (long) rank; 

3 int count; 

4 int next = (my-rank + 1) % thread.count; 
5 char x*fg_rv; 

6 char my-line[LMAX]; 

7 char *my_-string: 

8 

9 Sem-wait(&sems[my-rank]): 

10 fgrv = fgets(my-1ine, MAX, stdin); 

11 Sem_post(&semsfnext]) ; 

12 while (fg-rv != NULL) { 

13 printf("Thread %1d > my line = %s", my-.rank, my-line); 
14 

15 Count = 0; 

16 my-string = strtok(my_line, ”NtNn" ii 
17 while ( my-string != NULL ) { 

18 COUnt++; 

19 printf("Thread %1d > string %d = %SNn"，my-rank，Ccount ， 
20 my-string); 

21 my-string = strtok(NULEL, " \t\n"); 
22 } 

23 

24 semwait(&sems[my_rank]); 

25 fg-rv = fgets(my.line, MAX, stdin); 
26 sem.post (&sems[next1): 

27 } 

28 

29 return NULL:; 


30 } /* Tokenize */ 





给 定 以 上 假设 ， 我 们 编写 如 程序 4-14 所 示 的 线程 函数 。 主 线程 初始 化 一 个 有 个 信号 量 的 数组 
(每 个 线程 一 个 ) 。 线 程 0 的 信号 量 初始 化 为 1， 所 有 其 他 的 信号 量 初始 化 为 0。 第 9 ~11 行 的 代 
码 强制 线程 按 顺 序 访问 输入 行 。 线 程 首先 读 人 第 一 行 ， 此 时 所 有 其 他 的 线程 阻塞 在 sem_wait 
上 。 当 线程 0 执行 sem_post 时 ， 线 程 1 能 读 一 行 输入 。 在 每 个 线程 已 经 读 了 它 的 第 一 行 输入 后 
(或 已 经 达到 文件 尾 ) ， 更 多 额外 的 输入 会 在 第 24 ~ 26 行 恋人。fgets 函数 用 于 读 一 行 输入 ,而 E 
第 15 ~22 行 用 于 识别 这 一 行 的 词 。 当 用 一 个 线程 运行 这 个 程序 时 ， 它 能 正确 地 对 输入 流 进行 分 - 
词 。 我 们 第 一 次 用 2 个 线程 运行 这 个 程序 ,输入 为 : 

Pease porridge hot. 

Pease porridge cold. 

Pease porridge in the pot 

Nine days old. 
输出 也 是 正确 的 。 然 而 ， 我 们 用 同样 的 输入 再 次 运行 这 个 程序 ， 得 到 下 列 的 输出 : 


Thread 0 > my line = Pease porridge hot， 
Thread 0 > string 1 = Pease 

Thread 0 > string 2 = porridge 

Thread 0 > string 3 = hot. 

Thread 1 > my line = Pease porridge cold. 
Thread 0 > my line = Pease porridge in the pot 
Thread 0 > string 1 = Pease 

Thread 0 > string 2 = porridge 

Thread 0 > string 3 = in 

Thread 0 > string 4 = the 

Thread 0 > string 5 = pot 

Thread 1 > string 1 = Pease 

Thread 1 > my line = Nine days old. 
Thread 1 > string 1 = Nine 

Thread 1 > string 2 = days 

Thread 1 > string 3 = old. 


132“' 并 行程 序 设 计 导论 


这 是 怎么 回 事 ? 再 回头 看 一 下 strtok 如 何 对 输入 行进 行 缓存 。 它 通过 声明 一 个 storge 类 的 静 
态 变量 来 实现 对 输入 行 的 缓存 。 导 致 从 本 次 调用 到 下 次 调用 之 间 ， 存 储 在 这 个 变量 中 的 值 会 一 直 
被 保留 。 但 不 幸 的 是 ， 这 个 缓存 的 字符 串 是 共享 的 ， 而 不 是 私有 的 。 因 此 ， 线 程 0 调用 strtok 
对 输入 的 第 3 行进 行 缓 存 ， 履 盖 了 原来 线程 1 调用 strtok 读 入 输入 的 第 2 行 的 缓存 。 

strtok 函数 不 是 线程 安全 的 :如果 多 个 线程 同时 调用 它 ， 输 出 可 能 是 不 正确 的 。 遗 憾 的 基 ， 
对 于 C 语言 的 库 函 数 来 说 ， 线 程 不 安全 是 常见 的 。 例 如 ，stdiib. h 中 的 随机 数 生成 器 random 
和 time. h 中 的 时 间 转 换 函 数 1ocaltime 都 不 是 线程 安全 的 。 在 某 些 情 况 下 ,C 标准 库 指定 一 
个 替代 的 、 线 程 安 全 的 函数 版 本 。 事 实 上 ，strtok 有 一 个 线程 安全 的 版 本 : 


charx strtok.r( 
char* string /*¥ Thn/oQut #/, 
const char* separators AL 了 有 米 / ， 
Charsxw Saveptr-p A* VDOUL */); 


“_r” 表 示范 数 是 可 重 入 的 ,“ 可 重 人 ”有 时 用 做 线程 安全 的 同义词 。 函 数 的 前 两 个 参数 与 str - 
tok 是 一 样 的 。strtok_r 使 用 添加 _p 的 saveptr 参数 跟踪 函数 在 输入 字符 串 中 的 位 置 ， 它 起 
到 strtok 函数 中 缓存 指针 的 作用 。 通 过 用 strtok_r 替代 strtok， 可 以 更 正 原来 的 Token- 
ize 函数 。 只 需要 简单 地 声明 一 个 char * 变量 并 传人 函数 strtok_r 的 第 三 个 参数 ， 分 别 用 下 
列 调用 取代 原来 程序 中 的 第 16 行 和 第 21 行 : 

my-string = strtok-rtmy-line, " \t\n", &saveptr); 


my-string = strtoxrrtNUiL, " yt\n", &saveptr); 


不 正确 的 程序 能 产生 正确 的 输出 

我 们 注意 到 ， 原 来 的 分 词 程序 的 程序 错误 特别 隐匿 。 第 一 次 用 2 个 线程 运行 程序 时 ， 程 序 产 
生 正 确 的 输出 。 直 到 之 后 的 再 次 运行 ， 我 们 才 发 现 一 个 错误 。 不 幸 的 是 ， 这 在 并 行程 序 中 不 是 偶 
然 出 现 的 ， 在 共享 内 存 程序 中 特别 常见 。 因 为 对 大 部 分 程序 ， 线 程 是 互相 独立 运行 的 ， 正 如 我 们 
前 面 看 到 的 那样 ， 被 执行 的 语句 序列 是 非 确 定 的 。 例 如 ， 我 们 不 知道 线程 1 什么 时 候 第 一 次 调用 
strtok。 如 果 它 的 第 一 次 调用 发 生 在 线程 0 已 经 对 第 ! 行 分 词 之 后 ,那么 第 1 行 被 标识 的 词 应 该 
是 正确 的 。 然 而 ， 如 果 线 程 1 在 线程 0 完成 第 1 行 的 分 词 之 前 调用 strtok， 线 程 0 就 可 能 不 能 
够 完全 识别 第 1 行 所 有 的 词 。 因 此 ， 在 开发 共享 内 存 程序 时 ， 不 要 因为 一 个 程序 产生 了 正确 的 输 
出 ， 就 认定 它 一 定 是 正确 。 我 们 总 要 谨慎 地 处 理 竞争 条 件 。 


4. 12 小 结 


与 MPI 一 样 ，Pthreads 是 程序 员 用 来 实现 并 行程 序 的 函数 库 。 与 MPI 不 同 ，Pthreads 用 于 实 
现 共 享 内 存 并 行 性 。 

在 共享 内 存 编程 中 ， 线 程 相当 于 分 布 式 内 存 编程 中 的 进程 。 然 而 ,线程 经 常 比 进程 更 轻 
量 级 。 

在 Pthreads 程序 中 ， 所 有 的 线程 都 能 访问 全 局 变量 ， 但 是 局 部 变量 对 于 运行 程序 的 线程 来 说 
是 私有 的 。 为 了 使 用 Pthreads， 我 们 应 该 导 和 人 pthread. h 头 文件 ， 并 且 在 编译 程序 时 ， 通 过 在 命 
令 行 添 加 - 1pthread 为 程序 链接 Pthread 库 。 我 们 分 别 使 用 函数 pthread_create 和 
pthread_join 来 启动 和 停止 一 个 线程 。 

当 多 个 线程 同时 执行 时 ， 多 个 线程 执行 语句 的 顺序 通常 是 非 确定 的 。 当 多 个 线程 试图 访问 一 
个 共享 资源 时 ， 例 如 一 个 共享 变量 或 一 个 共享 文件 ， 并 且 其 中 至 少 有 一 个 访问 是 更 新 操作 ， 这 样 
的 访问 可 能 会 导致 错误 ， 导 致 结果 的 不 确定 性 ， 我 们 称 这 种 现象 为 竞争 条 件 (race condition ) 。 编 
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写 共享 内 存 程序 时 最 重要 的 任务 之 一 就 是 识别 和 更 正 竞争 条 件 。 临 界 区 (critical section) 是 一 个 
代码 块 ， 在 这 个 代码 块 中 ， 任 意 时 刻 只 有 一 个 线程 能 够 更 新 共享 资源 ， 因 此 临界 区 中 的 代码 执行 
应 该 作为 串 行 代码 执行 。 因 此 ， 在 设计 程序 时 ， 应 尽 可 能 少 地 使 用 临界 区 ， 并 且 使 用 的 临界 区 应 
该 尽 可 能 短 。 

有 三 种 避免 对 临界 区 竞争 访问 的 基本 方法 : 忙 等 待 、 互 斥 量 和 信和 号 量 。 忙 等 待 (busy-wait- 
ing) 可 以 用 一 个 标志 变量 和 一 个 空 循 环 来 实现 。 但 它 十 分 浪费 CPU 周期 。 如 果 打 开 编 译 器 优化 ， 
它 又 是 不 可 靠 的 ， 因 此 一 般 来 说 使 用 互 斥 量 和 信和 号 量 会 更 好 。 

互 斥 量 (mutex) 可 以 被 看 做 是 临界 区 的 一 把 锁 ， 因 为 互 斥 量 可 以 保证 对 临界 区 的 互 斥 访问 。 
在 Pthreads 中 ， 线 程 通过 调用 pthread_mutex_1ock 来 获取 互 斥 量 〈 锁 )， 并 通过 调用 
pthread_mutex_unlock 来 释放 互 斥 量 ( 锁 ) 。 当 一 个 线程 试图 获取 一 个 已 经 在 使 用 的 互 斥 量 
时 ， 它 就 阻塞 在 pthread_mutex_1ock 上 。 这 意味 着 该 线程 会 一 直 空 亲 直 到 系统 给 它 锁 。 信 号 
量 (semaphore) 是 一 个 有 两 个 操作 (sem_wait 和 sem_post) 的 无 符号 型 整数 。 如 果 信 号 量 是 
正 的 ,对 sem_wait 的 调用 就 简单 地 将 信号 量 减 1， 如 果 信 号 量 是 零 ， 调 用 sem_wait 的 线程 就 
会 阻塞 直到 信号 量 为 正 数 ， 此 时 信号 量 会 减 1， 然 后 线程 从 调用 中 返回 。sem_post 操作 使 信号 
量 加 1， 所 以 信号 量 可 以 当做 互 斥 量 使 用 ， 其中，sem_wait 对 应 pthread_mutex_lock，sem 
_post 对 应 pthread_mutex_un1ock。 然 而 ， 信 号 量 比 互 斥 量 功能 更 强 ， 因 为 它们 能 够 初始 化 
为 任何 非 负 值 。 而 且 ， 因 为 信号 量 没 有 “归属 权 ”， 任 何 线程 都 能 够 对 锁 上 的 信号 量 进行 解锁 。 
信号 量 能 够 很 容易 地 用 来 实现 生产 者 ~ 消费 者 同步 。 在 生产 者 - 消费 者 同步 中 ,一 个 “消费 者 ” 
线程 在 继续 运行 前 需要 等 待 一 些 条 件 或 数据 被 “生产 者 ”线程 创建 。 信 号 量 不 是 Pthreads 的 一 部 
分 。 为 了 使 用 它们 ， 需 要 导 人 Semaphore. h 头 文件 。 

一 个 路 障 (barrier) 是 程序 中 的 一 个 结 点 ， 线 程 必须 阻塞 直到 所 有 的 线程 都 到 达 了 这 个 结 
点 。 有 几 种 不 同 的 构造 路 障 的 方法 。 其 中 一 种 使 用 了 条 件 变量 。 条 件 变量 ( conditional variable) 
是 一 个 特殊 的 线程 对 象 ， 它 用 来 挂 起 一 个 线程 的 执行 直到 某 个 条 件 发 生 。 一 旦 条 件 发 生 ， 另 一 个 
线程 能 够 用 一 个 条 件 信 和 号 或 一 个 条 件 广播 唤醒 挂 起 的 线程 。 

最 后 介绍 的 Pthreads 构造 是 读 写 锁 (read-write lock ) 。 当 多 个 线程 同时 安全 地 读 一 个 数据 结 
构 时 ， 可 以 使 用 读 写 锁 ; 但 如 果 线 程 需要 修改 或 者 写 数 据 结构 时 ， 在 修改 期 间 ， 只 有 一 个 线程 能 
够 访问 该 数据 结构 。 

现代 微 处 理 器 结构 使 用 缓存 来 减少 内 存 的 访问 时 间 ， 因 此 典型 的 处 理 器 结构 有 特殊 的 硬件 来 
保证 不 同 芯 片上 的 缓存 是 一 致 的 〈coherent ) 。 因 为 缓存 一 致 的 基本 单位 是 一 个 缓存 行 (cache 
line) 或 缓存 块 (cache block) ， 它 通常 比 一 个 存储 字 大 ， 所 以 这 可 能 会 带 来 负 效应 : 两 个 线程 可 
能 正在 访问 不 同 的 内 存单 元 ， 当 两 个 单元 属于 同一 个 缓存 行 时 ， 缓 存 一 致 性 硬件 会 看 成 这 两 个 线 
程 正在 访问 同一 个 内 存单 元 。 这 样 ， 如 果 一 个 线程 更 新 了 它 的 内 存单 元 ， 之 后 其 他 的 线程 试图 读 
它 想 访问 的 内 存单 元 (与 前 面 那个 线程 更 新 的 内 存单 元 同 在 一 个 缓存 行 )， 就 不 得 不 从 主 存 中 获 
取 值 。 就 是 说 ， 缓 存 一 致 性 硬件 强迫 多 个 线程 看 起 来 好 像 是 共享 同一 个 内 存单 元 。 这 称 为 伪 共 享 
(false sharing) ， 它 会 严重 地 降低 共享 内 存 程序 的 性 能 。 

某 些 C 语言 函数 通过 声明 static 变量 从 而 在 两 次 调用 之 间 缓 存 数 据 。 当 多 个 线程 调用 该 函 
数 时 ， 可 能 会 引起 错误 ， 因 为 在 线程 之 间 共 享 静态 存储 ， 所 以 一 个 线程 能 够 覆盖 另 一 个 线程 的 数 
据 。 这 样 的 函数 不 是 线程 安全 的 〈thread-safe) 。 不 幸 的 是 ,在 C 语言 库 中 有 不 少 这 样 的 函数 。 然 
而 ， 有 时 会 有 一 些 保 证 线程 安全 的 变形 函数 可 以 替 用 。 


观察 使 用 线程 不 安全 函数 的 程序 ， 我 们 发 现 有 些 问 题 特别 隐匿 : 使 用 多 个 线程 和 固定 输入 运 ， 


行程 序 时 ， 即 使 程序 是 错误 的 ， 它 有 时 也 会 产生 正确 的 输出 。 这 意味 着 即使 在 测试 中 程序 产生 了 
正确 的 输出 ， 也 不 保证 它 实 际 上 是 正确 的 ， 要 靠 我 们 自己 来 识别 可 能 的 竞争 条 件 。 
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4. 13 “习题 


4.1 


4.2 


4.3 


当 讨论 矩阵 - 向 量 乘法 时 ,我们 通常 假设 m 和 nn， 即 和 矩阵 的 行 数 和 列 数 ， 都 能 够 被 上 整除 ，: 是 线程 的 
个 数 。 但 是 ， 如 果 m 和 n 不 满足 能 被 ! 整除 的 条 件 ， 那么 用 什么 公式 来 分 配 数据 ? 

如 果 想 要 物理 上 分 割 一 个 数据 结构 给 多 个 线程 中 ， 也 就 是 说 ,和 想 让 数据 结构 的 不 同 成 员 对 各 个 线程 局 
部 化 ,我 们 至 少 需要 考虑 三 个 问题 : 

a. 数据 结构 的 成 员 怎样 被 单个 线程 独立 使 用 ? 

b. 数据 结构 在 哪里 初始 化 ? 怎样 初始 化 ? 

c. 在 数据 结构 的 成 员 计 算 后 ， 在 哪里 使 用 数据 结构 ?怎样 使 用 ? 

我 们 先 简单 地 看 一 下 在 和 矩 阵 - 向 量 乘法 函数 中 的 第 一 个 问题 。 我 们 看 到 整个 向 量 x 被 所 有 的 线程 使 
用 ,很 明显 它 应 该 被 共享 。 然 而 ， 对 于 和 矩阵 A 和 乘积 向 量 y， 问 题 (a) 似乎 是 建议 将 A 和 y 的 元 素 
分 布 在 多 个 线程 中 。 

为 了 在 线程 中 划分 A 和 y， 我 们 要 做 什么 ?划分 y 不 是 很 难 ， 每 个 线程 可 以 分 配 一 块 内 存 区 来 存储 分 
配给 它 的 y 元 素 。 同 样 ， 对 和 矩阵 A， 每 个 线程 分 配 一 块 内 存 区 来 存储 分 配给 它 的 A 的 部 分 行 。 请 你 
修改 矩阵 - 向量 乘法 程序 ， 让 程序 可 以 分 割 这 两 个 数据 结构 并 将 它们 分 配给 各 个 线程 。 你 可 
以 “调度 ”输入 和 输出 使 得 线程 能 读 人 A 并 且 打 印 出 y 吗 ? A 和 y 的 分 配方 案 是 否 会 影响 矩阵 - 
向 量 乘法 的 运行 时 间 ? 〈 运 行 时 间 不 包括 输入 和 输出 ) 。 

编译 器 无 法 知道 一 个 普通 的 C 程序 是 否 是 多 线程 ， 因 此 ， 可 能 会 做 出 干扰 忙 等 待 的 编译 优化 。( 注意 : 
编译 器 优化 不 应 该 影响 互 斥 量 、 条 件 变量 或 信号 量 .) 与 其 完全 关闭 编译 器 优化 ， 不 如 使 用 另 一 个 蔡 
代 方 法 : 用 C 关键 字 vo1atiie 来 标识 一 些 共享 变量 ,告诉 编译 器 这 些 变 量 可 能 会 被 多 个 线程 共享 . 
这 样 ， 编 译 器 就 知道 对 涉及 这 些 变 量 的 语句 不 要 应 用 优化 。 下 面 这 段 代 码 举例 说 明了 当 多 个 线程 试图 
把 一 个 私有 变量 与 一 个 共享 变量 相 加 求 和 时 ， 对 竞争 条 件 的 忙 等 待 解决 方案 : 

/*¥ XxX and flag are shared, y is private */ 


/*¥ XxX and flag are initiailized to 0 by main thread x*/ 


y= Computetmy_rank): 

while (flag := my_rank),; 

X= X+y: 

flag++; 

从 这 段 代 码 中 ， 编 译 器 看 不 出 while 语句 和 X=x+y 顺序 的 重要 性 。 因 为 如 果 代 码 是 单线 程 的 ， 这 两 
个 语句 的 顺序 不 影响 代码 的 结果 。 但 如 果 编 译 器 决定 通过 互 换 这 两 个 语句 的 顺序 来 提高 寄存 器 的 利用 
率 ， 结 果 可 能 是 错误 的 。 

但 如 果 我 们 把 定义 : 

int flag: 

int x; 

替换 为 定义 : 

int volatile flag; 

int volatile x; 


编译 器 就 知道 x 和 f1ag 会 被 其 他 线程 更 新 ， 它 就 不 会 重 排 语句 的 顺序 。 

对 于 gcc 编译 器 ， 缺 省 情况 下 不 做 编译 优化 。 你 也 可 以 在 编译 命令 行 添 加 -00 选项 来 确保 一 定 不 做 
优化 。 你 可 以 斌 试看， 运行 使 用 忙 等 待 的 无 编译 优化 的 7 计算 程序 (pth_pi_busy. c)， 看 看 多 线程 
计算 和 单线 程 计 算 相 比 结果 如 何 ?” 再 尝试 使 用 编译 优化 来 运行 这 个 程序 。 在 使 用 gcc 时 ,用 一 02 选 
项 取代 -00 选项 。 如 果 发 现 了 程序 错误 ， 此 时 你 使 用 的 是 几 个 线程 运行 该 程序 ? 

在 7 计算 程序 中 ， 哪 些 变 量 应 该 标记 为 volatile? 改变 这 些 变量 的 定义 ， 把 它们 标记 为 volatile， 
并 分 别 使 用 和 不 使 用 优化 重新 运行 该 程序 ， 与 单线 程 程序 相 比 ， 结 果 如 何 ? 


4.4 ,如 果 增 加 线程 的 个 数 ， 直 至 超过 可 使 用 的 CPU 数目 ， 我 们 发 现 使 用 互 斥 量 的 立 计 算 程 序 的 性 能 几乎 保 
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4.6 


4.7 


4.8 


4.9 
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持 不 变 。 这 个 现象 说 明 应 该 如 何在 可 用 的 处 理 器 上 调度 线程 ? 

请 修改 使 用 互 斥 量 的 r 计算 程序 ， 使 临界 区 在 for 循环 内 。 这 个 版 本 的 性 能 与 原来 的 忙 等 待 版 本 相 比 
如 何 ? 我 们 怎样 解释 它 ? 

请 修改 使 用 互 斥 量 的 站 计算 程序 ， 使 得 它 使 用 信和 号 量 取代 互 斥 量 。 这 个 版 本 的 性 能 与 互 斥 量 版 本 相 比 
如 何 ? 

尽管 生产 者 - 消费 者 同步 采用 信号 量 很 容易 实现 ， 但 它 也 能 用 互 斥 量 来 实现 。 基 本 的 想法 是 : 让 生产 
者 线程 和 消费 者 线程 共享 一 个 互 斥 量 。 用 一 个 被 主线 程 初始 化 为 fal Se 的 标志 变量 来 表示 是 否 有 产品 
可 以 被 “消费 ”。 这 两 个 线程 的 执行 如 下 : 


while (1) f 
pthread_mutex_iock(&mutex):; 
if (my_rank == consumer) f 


if (message-available) 1 
print message: 
pthread_mutex.unlock(&mutex}; 
break ; 
} else { /A* My-rank == producer */ 
create message; 
message-available = 1; 
pthread_mutex_unlock(&mutex):; 
break; 
Dnread mutex unlockt gmutex): 
} 
如 果 消 费 者 线程 首先 进入 循环 ， 它 会 看 到 没有 可 用 的 信息 (message_available 值 为 false) 并 在 
调用 pthread_mutex_unlock 后 返回 。 消 费 者 线程 重复 上 述 过 程 ， 直 到 生产 者 线程 生产 出 信息 。 请 
编写 一 个 双 线 程 程序 ， 实 现 这 个 版 本 的 生产 者 - 消费 者 同步 。 你 可 以 将 这 个 程序 一 般 化 吗 ? 让 它 能 够 
运行 次 个 线程 ， 其 中 奇数 线程 是 消费 者 ， 偶 数 线程 是 生产 者 。 另 外 ， 将 程序 一 般 化 为 每 个 线程 既是 生 
产 者 又 是 消费 者 ， 你 能 做 到 吗 ? 例如 ， 线 程 9 既 要 发 送 一 条 信息 给 线程 (gq + 1) mod !， 又 要 从 线程 
(gq ~1+t) mod 接收 一 条 信息 ， 如 何 编写 程序 ”要 使 用 忙 等 待 吗 ? 
如 果 一 个 程序 使 用 超过 一 个 互 斥 量 ， 并 能 够 以 不 同 的 顺序 来 获取 互 斥 量 ， 程 序 可 能 会 死 锁 。 也 就 是 
说 ， 线 程 可 能 会 永远 地 阻塞 等 待 获取 一 个 锁 。 例 如 ， 假 设 一 个 程序 有 两 个 共享 数据 结构 〈 如 ， 两 个 数 
组 或 者 两 个 链表 ) ， 每 个 数据 结构 有 一 个 与 其 相关 联 的 互 斥 量 《〈 锁 ) 。 而 且 ， 我 们 假设 每 个 数据 结构 能 
够 在 线程 获取 数据 结构 关联 的 互 斥 量 后 被 访问 〈 读 或 修改 ) 。 


a 用 两 个 线程 运行 程序 。 假 设 发 生 了 下 列 顺序 的 事件 : 






线程 1 
pthread mutex lock (&mutl) 












pthread mutex lock (&mut0) 





pthread mutex lock (&mutl ) pthread mutex lock (&mut0) 


会 发 生 什 么 ? 

b. 如 果 程 序 使 用 忙 等 待 〈 采 用 两 个 标志 变量 ) 替代 互 斥 量 ， 会 有 问题 吗 ? 
c. 如 果 程 序 使 用 信和 号 量 替 代 互 斥 量 ， 会 有 问题 吗 ? 

以 下 是 一 些 Pthreads 定义 的 路 障 函数 的 实现 。 函 数 ; 


int pthread.barrier_init( 


pthread_barrier t* barrier.p /x* Out */, 
const pthread- barrierattr- t* attr-p /# in x*/, 
unsigned count /¥ in */): 


用 于 初始 化 一 个 路 障 对 象 barrier_p。 一般 情 况 下 ， 我 们 会 忽略 第 二 个 参数 ， 只 传递 NULL 值 给 这 个 
参数 。 最 后 一 个 参数 指定 在 线程 能 够 继续 运行 前 必须 到 达 路 障 的 线程 数 。 路 障 本 身 是 对 以 下 函数 的 
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4.14 


4. 15 


调用 : 


int pthread-barrier-wait'( 
pthread_barrier t* barrier.p /x* in/out */); 


与 大 部 分 其 他 的 Pthreads 对 象 一 样 ， 有 一 个 释放 函数 : 


int pthnread.barrier.destroy( 
pthread_barrier tx barrierp /* in/out */); 


修改 本 书 网 站 上 的 一 个 路 障 程序 ， 让 它 使 用 Pthreads 路 障 。 找 一 个 支持 Pthreads 路 障 实现 的 系统 ， 
并 用 不 同 数量 的 线程 在 系统 上 运行 你 的 程序 。 这 个 程序 的 性 能 与 其 他 实现 相 比 如 何 ? 
修改 你 在 之 后 的 编程 作业 中 编写 的 一 个 程序 ， 让 它 使 用 4.8 节 的 机 制 来 对 自己 计时 。 为 了 计算 经 过 
的 时 间 ， 你 可 以 使 用 本 书 网 站 上 介绍 的 在 头 文件 timer. h 中 的 宏 GET.TIME。 注 意 这 个 宏 将 给 出 墙 
上 时 钟 (wall clock) 时 间 ， 不 是 CPU 时 间 。 还 要 注意 : 因为 它 是 宏 ， 所 以 它 能 直接 操作 它 的 参数 。 
例如 ， 为 了 实现 : 


Store current time in my_start; 


你 可 以 使 用 : 
GET_TIME (my.start); 


而 不 是 : 
GET_TIME(&my-start)， 


你 将 怎样 实现 路 障 ? 你 又 将 怎样 实现 下 列 伪 代码 ? 

elapsed = Maximum of my.elapsed values: 

考虑 一 个 链表 以 及 对 链表 进行 的 访问 操作 ， 下 列 的 哪些 操作 可 能 会 导致 问题 
. 两 个 Delete 操作 同时 执行 。 

. 一 个 Insert 和 一 个 Delete 操作 同时 执行 。 

. 一 个 Member 和 一 个 Delete 操作 同时 执行 。 

. 两 个 Insert 同时 执行 。 

. 一 个 Insert 和 一 个 Member 同时 执行 。 

链表 操作 Insert 和 Delete 都 由 两 个 不 同 的 阶段 组 成 。 在 第 一 阶段 ， 这 两 个 操作 要 么 查找 新 结 点 - 
的 位 置 ， 要么 查找 要 删除 结 点 的 位 置 。 在 第 一 阶段 的 输出 结果 确定 后 ， 在 第 二 阶段 要 么 插入 一 个 新 
结 点 ， 要 人 么 删除 一 个 存在 的 结 点 。 其 实 ， 对 链表 程序 来 说 ， 把 这 种 类 型 的 操作 分 成 两 个 郴 数 调用 是 
十 分 常见 的 。 对 于 这 两 个 操作 ， 第 一 阶段 都 只 涉及 对 链表 的 读 访问 ， 只 有 第 二 个 阶段 才 修 改 链 表 。 
如 果 在 第 一 阶段 使 用 一 个 读 锁 来 锁链 表 是 否 安全 ? 在 第 二 阶段 用 写 锁 来 锁链 表 是 否 安全 ? 请 解释 你 
的 答案 。 

请 从 网 站 上 下 载 多 线程 的 链表 程序 。 在 我 们 的 例子 中 ， 查 找 操作 所 占 的 比例 是 固定 的 ， 剩 下 的 部 分 
比例 由 插入 与 删除 操作 构成 。 

a 重新 运行 实验 ， 实 验 包括 所 有 的 查找 和 插入 操作 。 

b. 重新 运行 实验 ， 实 验 包括 所 有 的 查找 和 删除 操作 。 

两 次 实验 总 的 运行 时 间 上 有 什么 不 同 ? 插入 和 删除 操作 哪 一 个 更 耗 时 ? 

在 C 语言 中 ， 将 二 维 数 组 作为 参数 的 函数 必须 在 参数 列表 中 指定 数组 的 列 数 。 因 此 对 于 C 程序 员 来 
说 ， 只 使 用 一 维 数组 是 很 常见 的 ， 通 常 编写 一 段 显 式 的 代码 将 二 维 数组 一 对 下 标 转换 为 对 应 一 维 数 
组 的 下 标 。 修 改 Pthreads 的 矩阵 ~- 向 量 乘 法 程序 ， 用 一 个 一 维 数组 表 来 示 抢 阵 ， 并 调用 矩阵 - 向 
量 乘 法 函数 。 这 样 的 改变 会 影响 运行 时 间 吗 ? 

请 从 本 书 的 网 站 上 下 载 源 文件 pth_vect_rand_split.c。 找 一 个 可 以 对 缓存 进行 概要 分 析 的 程序 
(例如 Valgrind 的 程序 [49] ) ， 并 根据 缓存 概要 分 析 文 档 的 指令 来 编译 程序 (需要 符号 表 和 完全 编译 
优化 gcc -9 -02...)。 现 在 根据 文档 的 指令 运行 程序 ， 使 用 三 种 不 同 的 输入 kx (k. 10)、(k。 
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10) x (10) 和 (k.10*) xi。 选 择 较 大 的 上 ， 使 这 三 个 输入 中 至 少 有 一 个 的 二 级 缓存 缺失 数 

达到 10" 的 数量 级 。 

a. 这 三 种 输入 所 引起 的 一 级 缓存 写 缺失 各 为 多 少 ? 

b. 这 三 种 输入 所 引起 的 二 级 缓存 写 缺失 各 为 多 少 ? 

c. 部 分 的 写 缺失 发 生 在 名 里 ?” 哪 种 输入 的 写 缺 失 最 多 ? 你 能 解释 为 什么 吗 ? 

d. 这 三 种 输入 所 引起 的 一 级 缓存 读 缺 失 各 为 多 少 ? 

e. 这 三 种 输入 所 引起 的 二 级 缓存 读 缺 失 各 为 多 少 ? 

f 大 部 分 的 读 缺 失 发 生 在 哪里 ? 哪 种 输入 的 读 缺 失 最 多 ? 你 能 解释 为 什么 吗 ? 

g 分 别 采 用 这 三 种 输入 运行 程序 ， 但 不 使 用 缓存 分 析 器 。 在 哪个 输入 下 程序 运行 最 快 ? 哪个 输入 下 
程序 运行 最 慢 ? 你 对 缓存 失效 的 观察 能 解释 这 个 差别 吗 ? 如 何 解释 ? 

在 矩阵 - 向 量 乘法 的 例子 中 ， 采 用 8000 x 8000 的 输入 。 假 设 程序 用 4 个 线程 运行 ， 线 程 0 和 线程 2 

被 分 配 到 不 同 的 处 理 器 上 运行 。 如 果 一 个 缓存 行 大 小 为 64 字 节 或 8 个 double 型 数 ， 在 线程 0 和 线程 

2 之 间 会 对 向 量 y 的 任何 一 部 分 发 生 伪 共 享 吗 ? 为 什么 ?如 果 线 程 0 和 线程 3 被 分 配 到 不 同 的 处 理 器 

会 怎样 ? 它们 之 间 会 对 y 的 任何 一 部 分 发 生 伪 共享 吗 ? 

在 矩阵 ~ 向 量 乘法 的 例子 中 ， 采 用 8 x8 000 000 的 输入 。 假 设 double 型 数据 占用 8 字 节 的 存储 空间 ， 

一 个 缓存 行 大 小 为 64 字 节 。 同 时 假设 系统 有 2 个 双核 处 理 器 。 

a. 最 少 需要 多 少 个 缓存 行 来 存储 向 量 y? 

b. 最 多 需要 多 少 个 缓存 行 来 存储 向 量 y? 

ce. 如 果 缓 存 行 的 边界 总 是 按照 8 字 节 的 double 型 对 齐 ， 有 多 少 种 不 同 的 方式 给 y 的 元 素 分 配 组 
存 行 ? 

.如 果 我 们 只 考虑 一 对 线程 共享 一 个 处 理 器 ， 可 以 有 多 少 种 不 同 的 方式 将 4 个 线程 分 配 到 处 理 器 上 ? 
这 里 我 们 假设 同一 个 处 理 器 上 的 所 有 核 共享 一 个 缓存 。 

.在 我 们 的 例子 中 ， 是 否 有 一 个 向 量 元 素 到 缓存 行 的 分 配 ， 以 及 线程 到 处 理 器 的 分 配方 式 ， 使 得 没 
有 伪 共 享 发 生 吗 ? 换 名 话说， 是 否 能 做 到 分 配 到 一 个 处 理 器 的 多 个 线程 ， 它 们 各 自分 配 到 的 y 的 
元 素 能 存储 在 同一 个 缓存 行 中 ， 在 其 他 处 理 器 上 运行 线程 所 分 配 到 的 y 的 元 素 存储 在 不 同 的 缓存 
行 上 ? 

F. 有 和 多少 种 向 量 元 素 到 缓存 行 、 线 程 到 处 理 器 的 分 配方 式 ? 

g 在 这 些 分 配方 式 中 ， 有 多 少 种 不 会 导致 伪 共 享 发 生 ? 

a. 修改 矩阵 - 向 量 乘法 程序 ， 在 可 能 发 生 伪 共 享 时 填充 向 量 y。 填 充 y 的 目的 是 ， 如 果 线 程 按 锁 步 
执行 ， 包含 y 的 元 素 的 缓存 行 不 可 能 被 两 个 或 更 多 个 线程 共享 。 例 如 ， 假 设 一 个 缓存 行 可 以 存储 
8 个 double 型 数 ， 我 们 用 4 个 线程 执行 程序 。 如 果 我 们 为 y 分 配 至 少 48 个 double 型 数 的 存储 空 
间 ， 那 么 ， 在 每 次 for i 循环 时 不 可 能 有 2 个 线程 同时 访问 同一 个 缓存 行 。 

b. 修改 矩阵 - 向 量 乘法 程序 ， 让 每 个 线程 在 for i 循环 中 使 用 私有 空间 来 存储 它 使 用 的 y 的 那 部 分 。 
当 一 个 线程 计算 完 它 自己 的 那 部 分 y 后 ， 再 把 它们 从 私有 空间 复制 到 到 共享 变量 中 去 。 

c. 与 原始 程序 相 比 ， 这 两 个 替代 方案 的 性 能 如 何 ?它们 之 间 相 比 又 如 何 ? 

尽管 strtok_r 是 线程 安全 的 ， 但 它 有 一 个 不 太 好 的 特性 ， 就 是 它 会 无 端 地 修改 了 输入 的 字符 串 。 

请 编写 一 个 线程 安全 并 且 不 修改 输入 字符 串 的 分 词 程序 。 


[= 


mo 


4. 14 编程 作业 


4.1 
4.2 


编写 一 个 Pthreads 程序 ， 实 现 第 2 章 的 直方 图 程序 。 
假设 我 们 向 一 个 正方 形 的 标 丢 上 随机 投掷 飞镖 ， 靶 心 在 正中 央 ， 标 靶 的 长 和 宽 都 是 2 英尺 。 同 时 假设 
有 一 个 圆 与 标 靶 内 切 。 贺 的 半径 是 1 英尺 ， 面 积 是 7 平方 英尺 。 如 果 击 中 点 存 标 又 上 是 均匀 分 布 的 
(我 们 总 会 击 中 正方 形 ) ， 那 么 飞镖 击 中 圆 的 数量 近似 满足 等 式 

加 中 击 中 点 的 数量 _ 7 


总 的 投 搓 数 4 
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4.3 


4.4 


4.5 


4.6 


因为 圆 的 面积 与 正方 形 的 面积 之 比 为 5/4。 
我 们 可 以 使 用 这 个 公式 和 一 个 随机 数 生成 器 来 估算 的 值 。 


number-in-circle = 0; 
for (toss = 0; toss < number.of .tosses; toss++) |{ 
x = random double between —1 and 1; 
y = random double between —1 and 1; 
distance_squared = xx*X + yx*y: 
if (distance_squared “= 1) number-in-circlet+; 
! 


piestimate = 4*number._in_circlie/((double) number_of.tossesi; 

这 称 为 “蒙特 卡 洛 ”方法 ， 因 为 它 利 用 了 随机 性 ( 投 飞 镖 )。 

编写 一 个 Pthreads 程序 ， 使 用 蒙特 卡 洛 方法 估算 r。 由 主线 程 读 人 总 的 投掷 数 ， 然 后 输出 估算 值 。 可 
能 需要 对 圆 的 命中 次 数 和 投掷 次 数 都 使 用 1ong 1ong int (长 整 ) 型 ,为 了 对 7 值 进 行 合理 的 估算 ， 
这 两 个 值 必 须 足 够 大 。 

编写 一 个 Pthreads 程序 实现 梯形 积分 。 使 用 一 个 共享 变量 来 表示 所 有 线程 计算 结果 的 总 和 。 如 果 使 用 
忙 等 待 、 互 斥 量 和 信号 量 来 保证 临界 区 的 互 斥 。 每 个 方法 的 优点 和 缺点 分 别 是 什么 ? 

编写 一 个 Pthreads 程序 ， 计 算 你 的 系统 创建 和 终止 一 个 线程 所 需要 的 平均 时 间 。 线 程 的 数量 会 影响 平 
均 时 间 吗 ? 如 果 是 ， 为 什么 ? 

编写 一 个 Pthreads 程序 实现 一 个 “任务 队列 " 。 主 线程 启动 用 户 指 定数 量 的 线程 ， 这 些 线程 会 在 因为 
等 待 某 个 条 件 而 立即 睡眠 。 主 线程 还 生成 由 其 他 线程 执行 的 任务 块 ; 每 次 它 生成 一 个 新 的 任务 块 ， 就 
会 用 一 个 条 件 信 号 唤醒 一 个 线程 。 当 一 个 线程 完成 任务 块 的 执行 时 ， 它 又 会 回 到 条 件 等 待 。 当 主线 程 
完成 了 所 有 的 生成 任务 后 ， 它 会 设置 某 个 全 局 变量 ， 指 示 再 也 没有 更 多 的 任务 生成 了 ， 并 用 一 个 条 件 
广播 唤醒 所 有 线程 。 为 了 清晰 起 见 ， 将 任务 采用 链表 操作 。 

编写 一 个 Pthreads 程序 ， 使 用 两 个 条 件 变 量 和 一 个 互 斥 量 来 实现 一 个 读 写 锁 。 下 载 使 用 Pthreads 读 写 
锁 的 在 线 链表 程序 ， 修 改 该 程序 ， 让 它 使 用 你 的 读 写 锁 。 比 较 当 读 优先 级 更 高 时 和 写 优先 级 更 高 时 程 
序 的 性 能 。 并 进行 归纳 总 结 。 
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An Introduction to Parallel Programming 


用 OpenMP 进行 共享 内 存 编程 


与 Pthreads 一 样 ，OpenMP 是 一 个 针对 共享 内 存 并 行 编程 的 API。OpenMP 中 的 “MP” 代 表 
“多 处 理 "， 是 一 个 与 共享 内 存 并 行 编程 同 义 的 术语 。 因 此 ，OpenMP 是 为 此 类 系统 而 设计 的 : 在 
系统 中 每 个 线程 或 进程 都 有 可 能 访问 所 有 可 访问 的 内 存 区 域 。 当 使 用 OpenMP 编程 时 ， 我 们 将 系 
统 看 做 一 组 核 或 CPU 的 集合 ， 它 们 都 能 访问 主 存 ， 如 图 5-1 所 示 。 


CPU CPU CPU CPU 
互 连 | 


| 内 存 
| 
图 5-1 一 个 共享 内 存 的 系统 

尽管 OpenMP 和 Pthreads 都 是 针对 共享 内 存 编程 的 API， 但 它们 有 许多 本 质 的 不 同 。Pthreaqs 
要 求 程 序 员 显 式 地 明确 每 个 线程 的 行为 。 相 反 ，OpenMP 有 时 允许 程序 员 只 需要 简单 地 声明 一 块 
代码 应 该 并 行 执行 ， 而 由 编译 器 和 运行 时 系统 来 决定 哪个 线程 具体 执行 哪个 任务 。 这 也 意味 着 
OpenMP 和 Pthreads 还 有 另 一 个 不 同 之 处 ， 即 Pthreads (与 MPI 一 样 ) 是 一 个 能 够 被 链接 到 C 程序 
的 函数 库 ， 因 此 只 要 系统 有 Pthreads 库 ，Pthreads 程序 就 能 够 被 任意 C 编译 器 人 使用。 相反， 
OpenMP 要 求 编译 器 支持 某 些 操作 ， 所 以 完全 有 可 能 你 使 用 的 编译 器 无 法 把 OpenMP 程序 编译 成 
并 行程 序 。 

这 些 不 同 也 说 明了 为 什么 共享 内 存 编程 会 有 两 个 标准 API，Pthreads 更 底层 ， 并 且 提 供 了 虚 
拟 地 编写 任何 可 知 线程 行为 的 能 力 。 然 而 ， 这 个 功能 有 一 定 的 代价 ， 每 个 线程 行为 的 每 一 个 细节 
都 得 由 我 们 自己 来 定义 。 相 反 ，OpenMP 允许 编译 器 和 运行 时 系统 来 决定 线程 行为 的 一 些 细节 ， 
因此 使 用 OpenMP 来 编写 一 些 并 行 行为 更 容易 。 但 代价 是 很 难 对 一 些 底层 的 线程 交互 进行 编程 。 

程序 员 和 计算 机 科学 家 开发 OpenMP 的 原因 是 : 他 们 认为 使 用 诸如 Pthreads 的 API 来 编写 大 
规模 高 性 能 的 程序 实在 太 难 了 。 他 们 定义 了 OpenMP 规范 ， 在 一 个 更 高 的 层次 上 开发 共享 内 存 程 
序 。 事 实 上 ，OpenMP 明确 地 被 设计 成 可 以 用 来 对 已 有 的 串 行程 序 进行 增 量 式 并 行 化 ， 这 对 于 
MPI 是 不 可 能 的 ， 对 于 Pthreads 也 是 相当 困难 的 。 

本 章 我 们 将 学 习 OpenMP 的 基础 知识 ， 学 习 如 何 使 用 OpenMP 编写 程序 ， 以 及 如 何 编译 和 运 
行 OpenMP 程序 。 接 下 来 ,我 们 还 会 学 习 怎 样 利用 OpenMP 最 强大 的 功能 中 的 一 个 : 只 需要 对 源 
代码 进行 少量 改动 就 可 以 并 行 化 许多 串 行 的 for 循环 。 我 们 还 会 看 到 OpenMP 的 一 些 其 他 特征 ; 
任务 并 行 化 和 显 式 线程 同步 。 我 们 也 会 看 到 一 些 在 共享 内 存 编程 中 的 标准 问题 : 缓存 对 共享 内 存 
编程 的 影响 ， 以 及 当 串 行 代码 〈 特 别 是 一 个 串 行 库 ) 被 一 个 共享 内 存 程序 使 用 时 遇 到 的 问题 。 
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5.1 


预备 知识 


OpenMP 提供 “基于 指令 ”的 共享 内 存 API。 这 意味 着 : 在 C 和 C ++ 中 ， 有 一 些 特殊 的 预 处 


理 器 指令 pragma。 在 系统 中 加 入 预 处 理 器 指令 一 般 是 用 来 允许 不 是 基本 C 语言 规范 部 分 的 行为 。 
不 支持 pragma 的 编译 器 就 会 忽略 pragma 指令 提示 的 那些 语句 ， 这 样 就 允许 使 用 pragma 的 程 


序 在 不 支持 它们 的 平台 上 运行 。 因 此 ,在 理论 上 ， 如 果 你 仔细 编写 一 个 OpenMP 程序 、 它 就 能 够 


在 任何 有 C 编译 器 的 系统 上 被 编译 和 运行 ， 而 无 论 编译 器 是 否 支持 OpenMP。 


在 C 和 C++ 中 ， 预 处 理 器 指令 以 #pragma 开头 。 通 常 ， 我 们 把 字符 # 放 在 第 一 列 ， 并 且 像 其 
区 ig 他 预 处 理 器 指令 一 样 ， 移 动 指令 的 剩余 部 分 使 它 和 剩 下 的 代码 对 齐 。 与 所 有 的 预 处 理 器 指令 一 
样 ，pragma 的 默认 长 度 是 一 行 ， 因 此 如 果 有 一 个 pragma 在 一 行 中 放 不 下 ， 那 么 新 行 需 要 被 
“ 转 义 ”一 一 前 面 加 一 个 反 斜 枉 “\"。#pragma 后 面 要 跟 什 么 内 容 ， 完 全 取决 于 正在 使 用 哪些 


扩展 。 


看 一 个 十 分 简单 的 例子 一 一 一 个 使 用 OpenMP 的 “hello，world” 程 序 ， 如 程序 5-1 所 示 。 


程序 5-1 一 个 使 用 OQpenMP 的 “hello，world” 程序 








AZT 


5.1.1 


#include <stdio.h> 

#include <stdlib.nh> 

#include <omp.h> 

void Hello(lvoid’; /x Thread function */ 

int main(int argc, charx argv[]) { 
/#* Get number of threads from command line */ 
int thread.count = strtol(argyv[1l}. NULL, 10); 


# pragma omp parsllel num-threads(tthread-Ceunt ) 
Hello(); 


return 0; 
} /A# main */ 


void Hellotvoid) { 
int my-rank = omp-get-thread_num( ); 
int thread-count = omp-get_num threadst(): 


printf("Hello from Thread %d of %d\n", my-rank, threadcount): 


} /x Hello */ 


编译 和 运行 OpenMP 程序 


为 了 用 gcc 编译 这 个 程序 ， 需要 包含 - fopenmp 选项 = : 


$ gcc —g -Nall -fopenmp -0 omp-he110 omp-hello.c 


为 了 运行 程序 ， 在 命令 行 中 明确 线程 的 个 数 。 例 如 ， 和 希望 有 四 个 线程 运行 程序 ， 就 输入 : 


$ 


如 果 这 


./omp_hnello 4 


样 做 ， 输 出 可 能 是 : 


Hello from thread 0 of 4 
Hello from thread 1 of 4 
Hello from thread 2 of 4 
Helilo from thread 3 of 4 


© 


有 些 老 版 本 的 gcc 可 能 不 包含 OpenMP 支持 。 一 般 而 言 ， 其 他 的 编译 器 使 用 不 同 的 命令 行 选项 来 明确 源 程 序 是 否 
是 一 个 OpenMP 程序 。 要 获取 关于 编译 器 使 用 的 细节 ， 请 看 2.9 节 。 
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然而 ， 应 该 注意 到 线程 正在 竞争 访问 标准 输出 ， 因 此 不 保证 输出 会 按 线程 编号 的 顺序 出 现 。 例 


如 ,输出 也 可 能 是 : 


Hello from thread 
Hello from thread 
Hello from thread 
Hello from thread 


Helilo from thread 
Heilo from thread 
Hello from thread 
Hello from thread 


或 者 任何 其 他 的 线程 编号 的 排列 。 
如 果 我 们 只 想 用 一 个 线程 运行 程序 ， 可 以 输入 : 


$ ,Vomp-he110 1 


我 们 将 得 到 输出 : 


Hello from thread 


5. 1.2 程序 


3 of 4 
1 of 4 
2 of 4 
0 of 4 


0 of 1 


我 们 来 看 一 下 程序 5-1 中 的 源 代 码 。 除 了 指令 集合 外 ，OpenMP 由 一 个 函数 和 宏 库 组 成 ， 因 
此 我 们 通常 需要 包含 一 个 有 原型 和 宏 定 义 的 头 文件 。OpenMP 的 头 文件 是 omp. h， 程 序 的 第 3 行 


包含 了 它 。 


在 Pthreads 程序 中 ， 我 们 在 命令 行 里 指定 线程 数 ，OpenMP 程序 也 经 常 这 么 做 。 因 此 在 第 9 
行 , 使 用 stdlib. hn 中 的 strtol 函数 来 获得 线程 数 。 这 个 画 数 的 语法 是 : 


long strtoll 


const char* rnumber p 


Charx** 
int 


end p 
base 


/# in #*/, 
/kk OUEt */, 
/A# jn #*/); 


第 一 个 参数 是 一 个 字符 串 〈 在 我 们 的 例子 中 ， 它 是 命令 行 参数 ) ， 最 后 的 参数 是 字符 串 所 表示 的 
数 的 基数 〈 在 我 们 的 例子 中 是 10 〈 十 进 制 ) ) 。 我 们 不 使 用 第 二 个 参数 ， 因 此 只 是 传人 一 个 NULL 


( 空 ) 指针 。 


如 果 你 已 经 了 解 C 语言 编程 ， 那么 到 这 里 为 止 我 们 都 没有 介绍 新 的 内 容 。 当 我 们 从 命令 行 启 
动 程序 时 ， 操 作 系 统 启动 一 个 单线 程 的 进程 ， 进 程 执 行 main 函数 中 的 代码 。 然 而 ， 在 程序 的 第 
11 行 ， 事 情 变 得 有 趣 了 。 这 是 第 一 条 OpenMP 指令 ， 使 用 它 来 提示 程序 应 该 启用 一 些 线程 。 每 个 
被 启动 的 线程 都 执行 Hel 10 函数 ， 并 且 当 线程 从 Hel1o 调用 返回 时 ， 它 们 应 该 被 终止 ， 即 在 执 


行 return 语句 时 进程 应 该 被 终止 。 


程序 的 代码 上 有 许多 重大 的 改变 。 如 果 你 学 习 了 第 4 章 ， 就 会 想起 我 们 必须 写 许多 代码 来 派 
生 (fork) 和 合并 (join) 多 个 线程 : 需要 为 每 个 线程 的 特殊 结构 分 配 存 储 空间 ， 需 要 使 用 一 个 
for 循环 来 启动 每 个 线程 ， 并 使 用 另 一 个 for 循环 来 终止 这 些 线程 。 因 此 ， 很 明显 OpenMP 比 


Pthreads 层次 更 高 。 


我 们 已 经 看 到 : 在 C 和 C++ 中 ， pragma 总 以 


## pragma 
作为 开始 。 


OpenMP 的 pragma 总 是 以 


## pragma omp 
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作为 开始 。 

在 pragma 后 面 的 第 一 条 指令 是 一 条 parallel 指令 ， 你 也 许 已 经 猜 到 : 使 用 paraliel 是 
用 来 表明 之 后 的 结构 化 代码 块 (structured block ， 也 可 以 称 为 基本 块 ) 应 该 被 多 个 线程 并 行 执行 。 
一 个 结构 化 代码 块 是 一 条 C 语句 或 者 只 有 一 个 人 日 和 一 个 出 口 的 一 组 复合 C 语句 ， 但 在 这 个 代码 
块 中 允许 调用 exit 函数 。 这 个 定义 简单 地 禁止 分 支 语句 进入 或 离开 结构 化 代码 块 。 





线程 (thread) 是 执行 线程 〈thread of 线程 
execution) 的 简写 。 这 个 名 字 表 示 被 一 个 程 进程 
序 执行 的 一 系列 语句 。 典 型 地 ， 线 程 被 同一 村 人 一 一 
个 进程 派生 (fork)， 这 些 线 程 共 享 启动 它 
们 的 进程 的 大 部 分 资源 (例如 ， 对 标准 输 经 和 


入 和 标准 输出 的 访问 ) ， 但 每 个 线程 有 它 自 图 32 一 个 派生 和 合并 两 个 线程 的 进程 
己 的 栈 和 程序 计数 器 。 当 一 个 线程 完成 了 执行 ， 它 就 又 合并 (join) 到 启动 它 的 进程 中 。 线 程 在 
示意 图 中 表示 为 有 向 线段 。 如 图 5-2 所 示 。 更 多 的 细节 见 第 2 章 和 第 4 章 。 

最 基本 的 parallel 指令 可 以 以 如 下 简单 的 形式 表示 : 


# pragmna vmp parallel 


运行 结构 化 代码 块 的 线程 数 将 由 运行 时 系统 决定 。 这 里 使 用 的 算法 十 分 复杂 ， 细 节 见 OpenMP 标 
准 [42]。 如 果 没 有 其 他 线程 启动 ， 典 型 情况 下 系统 将 在 每 个 核 上 运行 一 个 线程 。 

如 前 面 提 到 的 那样 ， 通 常会 在 命令 行 里 指定 线程 数 ， 因 此 为 parallel 指令 增加 num_ 
threads 子 句 。 在 OpenMP 中 ， 子 句 只 是 一 些 用 来 修改 指令 的 文本 。num_threads 子 句 被 添加 
到 parallel 指令 中 ,这样 就 允许 程序 员 指 定 执行 后 代码 块 的 线程 数 : 


# pragma omp barallel num_threads{({thread.count) 


需要 注意 的 是 ， 程 序 可 以 启动 的 线程 数 可 能 会 受 系统 定义 的 限制 。OpenMP 标准 并 不 保证 实际 情 
况 下 能 够 启动 thread_count 个 线程 。 然 而 ， 目 前 大 部 分 的 系统 能 够 启动 数 百 甚至 数 千 个 线程 ， 
因此 除非 你 试图 启动 许多 线程 ， 否 则 一 般 情 况 下 我 们 几乎 总 能 够 得 到 需要 数目 的 线程 。 

当 程 序 到 达 paral1e1 指令 时 ， 究 竟 会 发 生 什么 ? 在 parallel 之 前 ， 程 序 只 使 用 一 个 线 
程 。 而 当 程 序 开 始 执行 时 ， 进 程 开 始 启动 。 当 程序 到 达 paralle1 指令 时 ， 原 来 的 线程 继续 执 
行 ， 另 外 thread_count 一 1 个 线程 被 启动 。 在 OpenMP 语法 中 ， 执 行 并 行 块 的 线程 集合 (原始 
的 线程 和 新 的 线程 ) 称 为 线程 组 (team) ， 原 始 的 线程 称 为 主线 程 (master) ， 额 外 的 线程 称 为 从 
线程 〈slave) 。 每 个 线程 组 中 的 线程 都 执行 paral1el 指令 后 的 代码 块 ， 因 此 在 我 们 的 例子 中 ， 
每 个 线程 都 调用 He11o 函数 。 

当代 码 块 执行 完 时 ， 即 在 我 们 的 例子 中 ， 当 线程 从 He110o 调用 中 返回 时 ， 有 一 个 隐 式 路 障 。 
这 意味 着 完成 代码 块 的 线程 将 等 待 线程 组 中 的 所 有 其 他 线程 完成 代码 块 一 一 在 我 们 的 例子 中 ， 一 
个 已 经 完成 Hel1o 调用 的 线程 将 等 待 线 程 组 中 所 有 其 他 线程 返回 。 当 所 有 线程 都 完成 了 代码 块 ， 
从 线程 将 终止 ， 主 线程 将 继续 执行 之 后 的 代码 。 在 我 们 的 例子 中 ， 主 线程 将 执行 第 14 行 的 
return 语 句 ， 程 序 将 终止。 

因为 每 个 线程 有 它 自己 的 栈 ， 所 以 一 个 执行 He11o 函数 的 线程 将 在 函数 中 创建 它 自己 的 私 
有 局 部 变量 。 在 我 们 的 例子 中 ， 当 函数 被 调用 时 ， 通 过 调用 OpenMP 函数 omp_get_thread_ 
num 和 omp_get_num_threads， 每 个 线程 将 分 别 得 到 它 的 编号 或 id， 以 及 线程 组 中 的 线程 数 。 
线程 的 编号 是 一 个 整数 ,范围 是 0、1 、…、thread_count -1。 这 些 函数 的 语法 是 : 


int omp-get.thread.num(void); 
int omp_get_num.threads (void); 
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因为 标准 输出 被 所 有 线程 共享 ， 所 以 每 个 线程 都 能 够 执行 printf 语句 ， 打 印 它 的 线程 编号 
和 线程 数 。 与 我 们 早先 提 到 的 一 样 ， 对 于 标准 输出 的 访问 没有 调度 ， 因 此 线程 打印 它们 结果 的 实 
际 顺 序 是 不 确定 的 。 


5. 1.3 错误 检查 

为 了 使 代码 更 为 紧凑 、 可 读 性 更 强 ， 我 们 的 程序 不 做 任何 错误 检查 。 当 然 ， 这 是 危险 的 ， 而 
且 实 际 上 ,试图 预测 错误 并 对 它们 进行 检查 是 一 个 十 分 好 的 主意 ， 甚 至 可 以 说 是 必需 的 。 在 这 个 
例子 中 ， 首 先 一 定 要 检查 命令 行 参 数 的 存在 ， 如 果 存 在 的 话 ， 在 调用 strtol 后 应 该 检查 值 是 否 
是 正 的 。 还 要 检查 被 paralle1 指令 实际 创建 的 线程 数 与 thread_count 是 否 一 样 ， 但 在 这 个 
例子 中 ， 这 并 不 重要 。 

第 二 个 潜在 问题 的 来 源 是 编译 器 。 如 果 编 译 器 不 支持 OpenMP， 那 么 它 将 只 忽略 paral1e1 
指令 。 然 而 ， 试 图 包含 omp. h 头 文 件 以 及 调用 omp_get_thread_num 和 omp_get_num_ 
threads 将 引起 错误 。 为 了 处 理 这 些 问题 ， 可 以 检查 预 处 理 器 宏 _0PENMP 是 否定 义 。 如 果 定 义 
了 ， 则 我 们 能 够 包含 omp. h 并 调用 OpenMP 函数 。 我 们 可 能 对 程序 做 下 列 修 改 。 

不 只 是 简单 地 包含 omp. h 


#inciude 《ompP .hy> 


我 们 能 够 在 试图 包含 omp. h 之 前 先 检查 _0PENMP 的 定义 : 


#ifaef -OPENMP 
# inciude 《omp ,hy> 
fenaif 


还 有 ， 我 们 可 以 首先 检查 是 否 _OPENMP 定义 ， 从 而 取代 只 调用 OpenMP 函数 : 


# ifdef -OPENMP 
int my-rank = Smp-get-thread-numt( ); 
int thread-count = omp-get_num.threads(); 
# else 
int my-rank = 0; 
int thread-count = 1; 
# endif 
这 里 ， 如 果 OpenMP 无 法 使 用 ， 则 He11o 函数 将 是 单线 程 的 。 因 此 ， 单 线程 的 编号 将 是 0， 线 程 
数 将 是 1。 9 
在 本 书 出 版 社 的 网 站 上 ， 有 做 出 这 些 检查 的 该 版 本 程序 的 源 代 码 。 为 了 使 程序 尽 可 能 清晰 ， 
通常 会 在 演示 的 代码 中 显示 少量 的 错误 检查 。 


5.2 梯形 积分 法 

我 们 来 看 一 个 更 实用 (也 更 复杂 ) 的 例子 : 用 梯形 积分 法 估计 曲线 下 方 所 包围 的 面积 。 回 忆 
一 下 在 3.2 节 ， 如 果 y= 灰 xz) 是 一 个 合理 的 函数 ，a <b 且 都 是 实数 ， 那 么 我 们 能 够 估计 fx) 的 
图 形 与 垂直 线 x =a、x = 站 和 xz 轴 所 围 成 的 区 域 的 面积 ， 方 法 是 将 区 间 [a, 5] 分 成 % 个子 多 间 并 
在 每 个 子 区 间 上 使 用 一 个 梯形 的 面积 来 近似 估计 区 域 的 面积 。 见 图 5-3 的 例子 。 

再 回忆 一 下 ， 如 果 每 个 子 区 间 有 同样 的 宽度 h， 并 且 定 义 h=(b-a)/n, x;=a+t+ 讯 ，i =0， 
1,，…, n， 那 么 近似 值 将 是 : 

h[LfCxo) /2 + 成 如) +f(x2) te tf 1) +f(%, ) /2] 

因此 ， 可 以 使 用 下 列 代码 实现 梯形 积分 的 串 行 算法 ， 
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/x¥ Input: a,. b, n */ 
h = (b-a}/n; 
approx = (f(a} + f(b)}/2.0; 
for (i = 1; i <= nl:; i++)f 
x-i = 3 + ixh; 
approx += f(x.i); 


} 
approx = hyapprox; 


详 见 3.2.1 节 。 





a bx 
a) b) 
图 5-3 梯形 积分 法 : a) 需要 估计 的 区 域 ; b) 使 用 梯形 计算 的 近似 面积 


第 一 个 OpenMP 版 本 
回忆 一 下 ， 我 们 应 用 Foster 的 并 行程 序 设 计 方 法 对 梯形 积分 法 进行 并 行 化 ， 具 体 步骤 ( 见 
6 3.2.2 节 ) 如 下 。 
(1) 识别 两 类 任务 : 
a. 单个 梯形 面积 的 计算 。 
b. 梯形 面积 的 求 和 。 
(2) 在 1 (a) 的 任务 中 , 没有 任务 间 的 通信 ， 但 这 一 组 任务 中 的 每 一 个 任务 都 与 1 (b) 中 
的 任务 通信 。 
(3) 假设 梯形 的 数量 远大 于 核 的 数量 ， 于 是 通过 给 每 个 线程 分 配 连续 的 梯形 块 ( 和 每 个 核 一 
个 线程 ) “来 聚集 任务 。 这 能 有 效 地 将 区 间 [a, 4b] 划分 成 更 大 的 子 区 间 ， 每 个 线程 对 它 的 子 区 
间 简 单 地 应 用 串 行 梯形 积分 法 。 例 子 见 图 5-4。 


7 线程 0 


b 
线程 1 线程 3 


5-4 将 梯形 分 配给 各 个 线程 





怠 ”我 们 讨论 的 这 个 方法 是 用 在 MPI 程序 中 的 ， 事实 上 我 们 使 用 的 是 进程 而 不 是 线程 。 
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然而 ， 工 作 还 没有 做 完 ， 因 为 还 需要 累加 线程 的 结果 。 很 明显 ， 其 中 一 个 解决 方案 是 使 用 一 个 共 
享 变量 作为 所 有 线程 的 和 ， 每 个 线程 可 以 将 它 计 算 的 部 分 结果 累加 到 共享 变量 中 。 让 每 个 线程 执 
行 类 似 下 面 的 语句 : 


global_result += my-result: 


然而 ， 正 如 我 们 已 经 看 到 的 ， 这 可 能 会 导致 一 个 错误 的 g10ba1_result 值 一 一 如 果 两 个 (或 更 
多 ) 线程 试图 同时 执行 这 条 语句 ， 那 么 结果 将 是 不 可 预计 的 。 例 如 ， 假设 91obal_result 已 经 
被 初始 化 为 0， 线 程 0 已 经 计算 出 my_resulit =1, 线程 1 已 经 计算 出 my_result =2。 而 且 ， 
假设 线程 根据 以 下 时 间 表 执行 语句 global_ result + = my_ result， 











线程 0 
global result =0 送信 寄存 器 
my_result =1 送信 寄存 器 
将 my_result 加 到 g91obal result 中 
存储 g1obal_result=1 


线程 1 
完成 my_result 
global_result =0 送 人 寄存 器 
my_resulit =2 送 人 寄存 器 

将 my_result 加 到 global resuilt 
存储 gilobal_result =2 
































我 们 看 到 线程 0 计算 出 的 值 (my_result =1) 被 线程 1 覆盖 了 。 

当然 ， 实 际 运行 时 ， 事 件 的 序列 可 能 会 不 同 ， 但 除非 一 个 线程 在 其 他 线程 开始 时 完成 了 计算 
global_result + = my_result, 否则 结果 都 将 是 不 正确 的 。 这 其 实 是 一 个 竞争 条 件 (race 
condition) 的 例子 ， 多 个 线程 试图 访问 一 个 共享 资源 ， 并 且 至 少 其 中 一 个 访问 是 更 新 该 共享 资源 ， 
这 可 能 会 导致 错误 。 引 起 竞争 条 件 的 代码 g91obal_result + = my_result， 称 为 临界 区 。 临 
界 区 是 一 个 被 多 个 更 新 共享 资源 的 线程 执行 的 代码 ， 并 且 共 享 资 源 一 次 只 能 被 一 个 线程 更 新 。 

因此 需要 一 些 机 制 来 确保 一 次 只 有 一 个 线程 执行 910bal_result + = my_result， 并 且 
第 一 个 线程 完成 操作 前 ， 没 有 其 他 的 线程 能 开始 执行 这 段 代 码 。 在 Pthreads 中 ， 使 用 互 斥 量 或 信 
号 量 。 在 OpenMP 中 ,使 用 critical 指令 : 


# pragma omp Critical 
global_result += my-result: 


这 条 指令 告诉 编译 器 需要 安排 线程 对 下 列 的 代码 块 进行 互 斥 访问 ， 即 一 次 只 有 一 个 线程 能 够 执行 
下 面 的 结构 化 代码 。 这 个 版 本 的 代码 在 程序 5-2 中 。 我 们 已 经 忽略 了 任何 错误 检查 ， 也 忽略 了 函 
数 / (x) 的 代码 。 

程序 5-2 第 一 个 OpenMP 梯形 积分 法 程序 


#include <stdio.h> 


thread-count = strtol(argy[1], NULL, 10); 
printf("Enter a, b, and n\n"); 


1 

2 #include <stdlib.h> 

3 #include <omp.h> 

4 

5 void Trap(double a, double b, int n, double* global_.result._p): 
6 

7 int main(int argc, char* argv[]) { 
8 double giobal.result = 0.0; 

9 double a, b; 

10 int Nn; 

] int thread-count ; 

[2 

13 

14 

15 

16 


SCanff"%if %if %d", &a, 8&8D, &n): 
# pragma omp parallel num_threads(thread count) 
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17 Trapla, b. n, &global_result); 

18 

19 printf("With n = %d trapezoids, our estimate\n", n); 
20 printf("of the integral from %f to %f = %.l4e\n", 

21 a., b, global_.reasult); 

22 return 0; 


23 } Ar Mmain */ 


25 void Trap(double a, double b, int n, double*x giobal_result.p) 1 


26 double hh, x, my.result: 

27 double 1ocal.a, local_b; 

28 int i, Tocal_n: 

29 int my-rank = omp.get_thread_num(); 

30 int thread-count = omp-get_num.threads(); 
31 

32 h = (b-a)/n:; 

33 Jocaln = n/thread.count:; 

34 local.a = a + my-rank*1local_n*h; 

35 local.b = 10Cal-a + local_n*h; 

36 my-result = (f{(1local.a) + fl(local-b))/2.0; 
37 for {i = 1; i <= 1ocal-n-l: i++) { 

38 x = local-a + ij*h; 

39 my_result += f(x); 

40 } 

41 my_-resuit = my_result*h; 

42 

43 # pragma omp critical 

44 *#g10b3a]_resuit-p += my._result; 

45 } /* Trap */ 


在 main 函数 中 ,第 16 行 之 前 的 代码 是 单线 程 的 ， 它 简单 地 获取 线程 数 和 输入 (ae、! 和 nn)。 
第 16 行 里 ，paralle] 指令 明确 Trap 水 数 应 该 被 thread_count 个 线程 执行 。 在 从 Trap 调 
用 返回 后 ， 任 何 被 bnaral1el 指令 启动 的 新 线程 将 终止 ， 程 序 只 用 一 个 线程 恢复 执行 。 这 个 线程 
打印 结果 并 终止 。 
在 Trap 函数 中 ， 每 个 线程 获取 它 的 编号 ， 以 及 在 线程 组 中 被 paral1el 指令 启动 的 线程 总 
数 。 然 后 ， 每 个 线程 确定 下 列 值 : 
(1) 梯形 底 的 长 度 (第 32 行 )。 
(2) 给 每 个 线程 分 配 的 梯形 数 (第 33 行 )。 
219 (3) 区 间 的 左 、 右 端点 (第 34 行 和 第 35 行 ) 。 
(4) 对 global_result 贡献 的 部 分 和 (第 36 ~41 行 )。 
在 第 43 第 和 第 44 行 ， 线 程 通过 将 它们 的 部 分 和 结果 增加 到 global_result 来 完成 操作 。 
对 某 些 变量 使 用 前 缀 10ca] 来 强调 它们 的 值 与 main 函数 中 的 对 应 值 不 同 例如 1ocal_ 
a 可 能 与 a 不同， 尽管 它 是 线程 的 左 端 点 。 
注意 : 除非 n 被 thread_count 整除 ， 否 则 我 们 将 使 用 小 于 个 的 梯形 来 估算 910bal_re- 
sult。 人 例如， 如果 m=14，thread_count =4， 则 每 个 线程 将 计算 
local_n=n /thread_count =14/4=3 
因此 每 个 线程 将 只 使 用 3 个 梯形 ，910bal1_result 将 由 4x3 =12 个 梯形 计算 出 ， 而 不 是 14 个 。 所 
以 在 错误 检查 (在 程序 中 没有 显示 ) 时 ， 我 们 用 如 下 操作 来 检查 n 是 否 被 thread_count 整除 ; 


if (ng%thread-count != 0) 1 
fprintftstderr，"n must be evenly divisible by thread.count\n"); 
exit(0); 

} 


因为 每 个 线程 分 配 到 了 10cal_n 个 梯形 的 块 ， 所 以 每 个 线程 的 区 间 长 度 将 是 1ocal_n*h， 故 
左 端点 将 是 : 
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thread0: 日 + Oxlocal_nxh 
thread 1: a + lx*xlocal_n*h 
thread 2: a + 2x*]aCcal_hxh 


在 第 34 行 ， 进 行 如 下 赋值 : 
local-a = a + my-rank 闻 10Ccal-n 半 hh; 


而 且 ， 因 为 每 个 线程 区 间 的 宽度 是 10cal -n*h， 所 以 它 的 右 端 点 将 是 


localb = local.a + local_nxh; 


5.3 变量 的 作用 域 


在 串 行 编程 中 ， 变 量 的 作用 域 由 程序 中 的 变量 可 以 被 使 用 的 那些 部 分 组 成 。 例 如 ,在 C 函数 
开始 处 被 声明 的 变量 有 “函数 范围 ”的 作用 域 ， 即 它 只 能 够 在 函数 体 中 被 访问 。 另 一 方面 ， 一 个 区 
在 .Cc 文件 开始 处 被 声明 的 变量 有 “文件 范围 ”的 作用 域 ， 表 示 任 何在 文件 中 声明 该 变量 的 函数 
都 能 够 访问 这 个 变量 。 在 OpenMP 中 ， 变 量 的 作用 域 涉 及 在 parallel1 块 中 能 够 访问 该 变量 的 线 
程 集合 。 一 个 能 够 被 线程 组 中 的 所 有 线程 访问 的 变量 拥有 共享 作用 域 ， 而 一 个 只 能 被 单个 线程 访 
问 的 变量 拥有 私有 作用 域 。 

在 “hello，world” 程 序 中 ， 被 每 个 线程 使 用 的 变量 (my_rank 和 thread_count) 在 Hel- 
10 函数 中 被 声明 ， 这 个 函数 在 parallel 块 中 被 调用 。 结 果 ， 被 每 个 线程 使 用 的 变量 在 线程 的 
(私有 ) 栈 中 分 配 ， 因 此 所 有 的 变量 都 有 私有 作用 域 。 这 与 梯形 积分 法 程序 的 情况 几乎 一 样 ， 因 
为 parallel 块 只 是 一 个 函数 调用 ， 因 此 在 Trap 函数 中 被 每 个 线程 使 用 的 变量 在 线程 的 栈 中 
分 配 。 

但 是 ,在 main 函数 中 声明 的 变量 (a、b、n、9global_result 和 thread_count) 对 于 
所 有 线程 组 中 被 paralle1 指令 启动 的 线程 都 是 可 访问 的 。 因 此 , 在 paral1el 块 之 前 被 声明 的 
变量 的 缺 省 作用 域 是 共享 的 。 事 实 上 ， 我 们 已 经 隐 式 地 使 用 了 每 个 在 线程 组 中 的 线程 可 以 从 对 
Trap 的 调用 中 得 到 a、b 和 mn 的 值 。 因 为 这 个 调用 发 生 在 parallel 块 里 ， 所 以 当 它 们 的 值 被 
复制 给 对 应 的 形式 参数 时 ， 每 个 线程 都 能 访问 a 、b 和 mn， 这 一 点 非常 重要 。 

而 且 , 在 Trap 函数 中 ， 尽 管 global_result_p 是 私有 变量 , 但 它 引 用 了 91obal_re- 
sult 变量 ， 这 个 变量 是 在 main 函数 中 并 且 在 parallel 指令 之 前 声明 的 变量 。g10bal_re- 
sult 的 值 用 于 存储 在 parallel 块 之 后 的 打印 结果 。 因 此 在 代码 


*gloebal_result.o += my-resultt ; 


中 ,对 于 *9g1lobal_result_p, 拥有 共享 作用 域 是 很 重要 的 。 如 果 它 对 每 个 线程 都 是 私有 的 ， 
就 不 需要 使 用 critical 指令 。 此 外 ， 如 果 它 是 私有 的 , 在 paraliel 块 完成 后 ， 将 很 难 在 
main 中 确定 global_result 的 值 。 

总 之 , 在 parallel 指令 前 已 经 被 声明 的 变量 ， 拥 有 在 线程 组 中 所 有 线程 间 的 共享 作用 域 ， 
而 在 块 中 声明 的 变量 (例如 ， 函 数 中 的 局 部 变量 ) 中 有 私有 作用 域 。 另 外 , 在 paral1el 块 开 
始 处 的 共享 变量 的 值 ， 与 该 变量 在 paralle1 块 之 前 的 值 一 样 。 在 paral1el 块 完 成 后 ， 该 变量 
的 值 是 块 结 束 时 的 值 。 

我 们 将 马上 看 到 一 个 变量 的 缺 省 作用 域 能 够 用 其 他 指令 改变 ，OpenMP 提供 了 改变 缺 省 作用 
域 的 子 句 。 


5.4 归 约 子 名 
如 果 开 发 实现 梯形 积分 法 的 串 行 程序 ,我们 可 能 会 使 用 一 个 有 些许 不 同 的 函数 原型 ， 而 
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B21 


B22 


不 是 : 

void Trap(double a, double b, int n, double* global.result._p): 
我 们 可 能 会 定义 : 

double Trap(double a, double b, int ni; 
对 函数 的 调用 将 会 是 : 


global.result = Trapta, bd, Nn); 


这 更 容易 理解 ， 对 于 除了 指针 的 忠实 拥护 者 之 外 的 人 ， 这 种 方法 可 能 更 有 吸引 力 。 
保留 指针 版 本 是 因为 我 们 需要 将 每 个 线程 的 局 部 计算 结果 加 到 g1obal1_result。 然 而 ， 我 
们 可 能 更 倾向 于 以 下 的 函数 原型 ; 


double Local-trap(doublie a, double b, int nN}; 


除了 没有 临界 区 外 ，Loca1_trap 的 函数 体 与 程序 5-2 中 Trap 的 函数 体 是 一 样 的 。 而 且 ， 每 个 
线程 将 返回 它 这 部 分 的 计算 ， 即 my_result 的 最 终 值 。 如 果 做 出 这 个 改变 ， 可 能 会 改变 paral- 
1e1 抉 使 之 看 上 去 如 下 所 示 ， 


global_result = 0.0; 
# pragma omp parallel munm-threads(thread-count ) 


# pragma omp critical 
global_result += Local.trap(double a, double b, int n); 
} 


你 能 看 出 上 面 这 段 代码 存在 的 一 个 问题 吗 ? 我 们 期 望 它 应 该 能 给 出 正确 的 答案 。 但 是 ， 因 为 
指定 的 临界 区 是 : 


global-result += Local_trapldouble a, double b, int n); 


对 Local_trap 的 调用 一 次 只 能 够 被 一 个 线程 执行 ， 所 以 这 就 相当 于 强制 各 个 线程 顺序 执行 梯形 
积分 法 。 如 果 我 们 检查 这 个 版 本 的 运行 时 间 ， 就 会 发 现 多 个 线程 运行 该 程序 可 能 会 比 一 个 线程 慢 
(见习 题 5.3)。 

可 以 通过 在 parallel 块 中 声明 一 个 私有 变量 和 将 临界 区 移 到 函数 调用 之 后 来 避免 这 个 
问题 : 


global.result = 0.0; 
# pragma omp parallel num-threads(tthread-count ) 


double my-result = 0.0; /* private */ 
my-result += Local_trap(double a, double b, int n); 
# pragma omp critical 
global_result += my.result: 
} 


现在 ， 对 Local_trap 的 调用 在 临界 区 之 外 ， 这 样 各 个 线程 能 够 同时 执行 对 Local_trap 的 调 
用 。 而 且 ， 因 为 my_result 被 声明 在 parallel 块 里 ， 所 以 它 是 私有 的 ， 在 临界 区 之 前 每 个 线 
程 会 在 它 的 my_result 变量 中 存储 它 那 部 分 的 计算 结果 。 

OpenMP 提供 了 一 个 更 为 清晰 的 方法 来 避免 Local_trap 的 串 行 执行 : 将 global_result 
定义 为 一 个 归 约 (reduction) 变量 。 归 约 操 作 符 (reduction operator) 是 一 个 二 元 操作 (例如; 加 
法 和 减法 )， 归 约 就 是 将 相同 的 归 约 操作 符 重复 地 应 用 到 操作 数 序列 来 得 到 一 个 结果 的 计算 。 另 
外 ， 所 有 操作 的 中 间 结 果 存 储 在 同一 个 变量 里 ， 归 约 变 量 (reduction variable)。 例 如 ， 如 果 A 是 
一 个 有 nm 个 int 型 整数 的 数组 ， 计 算 : 


第 5 章 用 OpenMP 进行 共享 内 存 编程 149 


int sum = 0; 
for (i = 0; i < Nn; i++) 
sum += A[Li]; 
是 一 个 归 约 ， 归 约 操作 符 是 加 法 。 
在 OpenMP 中 ， 可 以 指定 一 个 归 约 变量 来 表示 归 约 的 结果 。 为 了 能 够 如 此 操作 ， 要 在 paral- 
lel 指令 中 添加 一 个 reduction 子 句 。 在 我 们 的 例子 里 ， 修 改 代码 如 下 所 示 。 


global.result = 0.0: 
# pragma omp parallel num.threads(threadcount) \ 
reductiont+: global_result} 
global_result += Local_trap(double a, ~ double b, int n); 


首先 ,注意 paral1lel 指令 有 两 行 。 在 C 语言 中 ， 预 处 理 器 指令 缺 省 情况 下 只 有 一 行 ， 因 此 我 们 
需要 通过 添加 一 个 反 斜 杠 〈\) 来 转 义 换行 符 。 

代码 明确 了 global_result 是 一 个 归 约 变量 ， 加 号 (“+”) 指示 归 约 操作 符 是 加 法 。 
OpenMP 为 每 个 线程 有 效 地 创建 了 一 个 私有 变量 ， 运 行 时 系统 在 这 个 私有 变量 中 存储 每 个 线程 的 
结果 。OpenMP 也 创建 了 一 个 临界 区 ， 并 且 在 这 个 临界 区 中 ， 将 存储 在 私有 变量 中 的 值 进 行 相 加 。 
因此 ， 对 Local_trap 的 调用 能 够 并 行 执行 。 

reduction 子 名 的 语法 是 


reduction( operator>: “variable 1ist>) 


在 C 语言 中 ，operator 可 能 是 操作 符 + 、* 、- 、&、1 、“、&&、1| 1 中 的 任意 一 个 ,但 使 用 
减法 操作 会 有 一 点 问题 ， 因 为 减法 不 满足 交换 律 和 结合 律 。 例 如 ， 串 行 代码 : 


result = 0; 
for (1 = 1; i <= 4; i++) 
result 一 i; 


在 result 中 存储 的 结果 是 -10。 然 而 ， 如 果 我 们 将 迭代 划分 到 两 个 线程 中 去 执行 ， 线 程 0 将 减 
1 和 2, 线程 1 将 减 3 和 4， 那么 线程 0 将 算出 -3, 线程 1 将 算出 -7。 显 然 ，-3 - (-7) =4。 
理论 上 ， 编 译 器 应 该 能 指明 线程 各 自 的 结果 实际 上 应 该 要 相 加 ( -3+( -7) = -10), 实际 上 ， 
似乎 也 应 该 是 这 样 。 然 而 ，OpenMP 标准 [42] 看 来 并 不 保证 这 一 点 。 

还 要 注意 ， 如 果 一 个 归 约 变量 是 一 个 float 或 double 型 数据 ， 那 么 当 使 用 不 同 数量 的 线程 
时 ， 结 果 可 能 会 有 些许 不 同 。 这 是 由 于 浮 点 数 运算 不 满足 结合 律 。 例 如 ， 如 果 a、8 和 是 浮 点 
数 ， 那 么 (a +8) +c 可 能 不 会 准确 地 等 于 a+ (b+c)。 见 习题 5.5。 

当 一 个 变量 被 包含 在 一 个 reduction 子 句 中 时 ， 变 量 本 身 是 共享 的 。 然 而 ,线程 组 中 的 每 
个 线程 都 创建 自己 的 私有 变量 。 在 paralle] 块 里， 每 当 一 个 线程 执行 涉及 这 个 变量 的 语句 时 ， 
它 使 用 的 其 实 是 私有 变量 。 当 parallel 块 结束 后 ， 私 有 变量 中 的 值 被 整合 到 一 个 共享 变量 中 。 
因此 ， 我 们 最 新 版 本 的 代码 是 : 


global_result = 0.0; 
# pragma omp parallel num-threads(thread-count) \ 
reduction(+: giobal_result) 
gilobal_result += Local.trap(double a, double b, int n); 


这 段 代码 的 执行 效果 与 我 们 上 个 版 本 的 代码 (如 下 所 示 ) 相同 。 


gl10bal-result = 0.0; 
# pragma omp parallel numthreads(thread-count ) 
{ 
double my-result = 0.0; /x private */ 
my-result += Local-trap(double a, double b, int n); 
# pragma omp critical 
global_result += my-result: 
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最 后 要 注意 的 一 点 是 ， 线 程 的 私有 变量 初始 化 为 0。 这 与 初始 化 my_result 为 0 是 一 样 的 。 
一 般 来 说 ， 根 据 不 同 的 操作 符 ，reduction 子 名 创建 的 私有 变量 初始 化 为 相同 的 值 。 例 如 ， 如 
果 操 作 符 是 乘法 ， 则 私有 变量 初始 化 为 1。 


5.5 parallel for 指令 


作为 梯形 积分 法 显 式 并 行 化 的 替代 方案 ，OpenMP 提供 了 parallel for 指令 。 运 用 该 指令 ， 
我 们 能 够 并 行 化 串 行 梯形 积分 法 : 


h = (b-a)yni 
approx = (f(a} + f(b}})/2.0; 
for (i = 1; 1 <= n-l; i++) 


approx += fla + ixh); 
approx = hx*approx; 


方法 是 直接 在 for 循环 前 放置 一 条 指令 : 
h = (b-a)/n; 
approx = (f(a) + f(b))/2.0; 
# pragma omp parallel for num_threads(thread_count) \ 

reduction(+: approx) 

for (1 = 1; 1 = nl; i++) 
approx += f(a + ixh); 

approx = hxapprox: 


与 parallel 指令 一 样 ，parallel for 指令 生成 一 组 线程 来 执行 后 面 的 结构 化 代码 块 。 然 而 ， 
在 parallel for 指令 之 后 的 结构 化 块 必须 是 for 循环 。 另 外 ， 运 用 parallel for 指令 ， 系 统 
通过 在 线程 间 划 分 循环 和 迭代 来 并 行 化 for 循环 。 因 此 ，parallel for 指令 与 parallel 指令 非 
常 不 同 ， 因 为 在 parallel 指令 之 前 的 块 ， 一 般 来 说 其 工作 必须 由 线程 本 身 在 线程 之 间 划 分 。 

在 一 个 已 经 被 paral1el for 指令 并 行 化 的 for 循环 中 ， 线 程 间 的 缺 省 划分 方式 是 由 系统 决 
定 的 。 大 部 分 系统 会 粗略 地 使 用 块 划分 ， 即 如 果 有 m 次 迭代 ， 则 大 约 m/thread_count 次 迭代 
被 分 配 到 线程 0， 接 下 来 的 m/thread_count 次 被 分 配 到 线程 1， 以 此 类 推 。 

注意 ， 这 里 把 approx 作为 一 个 归 约 变量 是 必要 的 。 如 果 不 那样 做 ， 它 将 是 一 个 普通 的 共享 
变量 ， 循 环 体 中 的 

approx += f(a + ix*h); 

将 会 是 一 个 无 保护 的 临界 区 。 


然而 ， 说 到 作用 域 , 在 parallel 指令 中 ， 所 有 变量 的 缺 省 作用 域 是 共享 的 。 但 在 paral - 
lel for 中 ， 如 果 循 环 变量 i 是 共享 的 ， 那 么 变量 更 新 i + + 也 会 是 一 个 无 保护 的 临界 区 。 因 此 ， 


在 一 个 被 paral1e1 for 指令 并 行 化 的 循环 中 ， 循 环 变量 的 缺 省 作用 域 是 私有 的 ， 在 我 们 的 代码 


中 ， 每 个 线程 组 中 的 线程 拥有 它 自 己 的 j 的 副本 。 


5.5.1 警告 

这 是 一 个 十 分 美好 的 遐想 : 通过 添加 一 条 简单 的 paralle1 for 指令 ， 就 可 能 并 行 化 由 大 的 
for 循环 所 组 成 的 串 行 程序 。 也 可 能 通过 不 断 地 在 每 个 循环 前 放置 paral1el for 指令 ， 来 增 量 
地 并 行 化 一 个 串 行 程序 。 

然而 ， 事 情 不 会 像 看 上 去 那样 乐观 。 对 paralle1 for 的 使 用 有 几 个 敬告。 首先，OpenMP 
只 会 并 行 化 for 循环 ， 它 不 会 并 行 化 while 或 do -while 循环 。 这 似乎 不 是 一 个 很 大 的 限制 ， 因 
为 任何 使 用 while 或 do 一 while 循环 的 代码 都 能 够 被 转化 为 等 效 的 使 用 for 循环 的 代码 。 然 而 ， 
OpenMP 只 能 并 行 化 那些 可 以 在 如 下 情况 下 确定 迭代 次 数 的 for 循环 : 

e 由 for 语句 本 身 ( 即 for (…; …; …)) 来 确定 。 
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。 在 循环 执行 之 前 确定 。 
例如 ,“ 无 限 循环 ”: 
for (CC ;:;)1 
) ，. 
不 能 被 并 行 化 。 类 似 地 ， 循 环 


for (i = 0; i < nn; it+t) 1 
if ( . . . }) break; 


} 


也 不 能 被 并 行 化 ， 因 为 迭代 的 次 数 不 能 只 从 for 语句 中 来 决定 。 这 个 for 循环 也 不 是 一 个 结构 化 
块 ， 因 为 break 添加 了 另 一 个 从 循环 退出 的 出 口 。 

事实 上 ，OpenMP 只 能 够 并 行 化 具有 典型 结构 的 for 循环 。 典 型 的 for 循环 采用 程序 5-3 中 
的 一 种 形式 。 这 个 模板 中 的 变量 和 表达 式 符合 一 些 十 分 明显 的 限制 : 

。 变量 index 必须 是 整 型 或 指针 类 型 (例如 ， 它 不 能 是 float 型 浮 点 数 ) 。 

。 表达 式 start、end 和 incr 必须 有 一 个 兼容 的 类 型 。 例 如 ， 如 果 index 是 一 个 指针 ， 

那么 incr 必须 是 整 型 。 
e 表达 式 start、end 和 incr 不 能 够 在 循环 执行 期 间 改 变 。 
。 在 循环 执行 期 间 ， 变 量 index 只 能 够 被 for 语句 中 的 “ 增 量 表达 式 ” 修 改 。 


程序 5-3 ”可 并 行 化 的 for 语句 的 合法 表达 形式 





index++ B20 
++index 
index < end index-- 
index <= end --index 
for|index = start ; index >= end ; index += incr 
index > end index -= incr 


index = index + jincr 
index = incr + index 
index = index - incr 





这 些 限制 允许 运行 时 系统 在 循环 执行 前 确定 迭代 的 次 数 。 

运行 时 系统 必须 能 够 在 执行 前 决定 迭代 的 数量 , 但 唯一 例外 的 是 : 在 循环 体 中 可 以 有 一 个 
exit 调用 。 
5. 5.2 数据 依赖 性 

如 果 for 循环 不 能 满足 上 述 所 列举 规则 中 的 任何 一 条 ， 那 么 编译 器 将 简单 地 拒绝 它 。 例 如 ， 
假设 我 们 试图 编译 一 个 线性 查找 程序 : 


int Linear.search(int key, int A[], int n) ! 


1 
2 int i1:; 
3 /* thread_count is global wy/ 
4 # pragma omp parallel for num_threads (thread_count) 
5 for (i = 0; i < n; i+t+) 
6 if (A[i] == key) return i, 
7 return ~1l: /x* key not in list */ 
8 } 
那么 gcc 编译 器 将 报告 : 


Line 6: error: invalid exit from OpenMP Structured block 


一 个 更 隐匿 的 问题 发 生 在 如 下 的 循环 中 : 在 该 循环 中 ， 选 代 中 的 计算 依赖 于 一 个 或 更 多 个 先 
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前 的 迭代 结果 。 例 如 ， 考 虑 下 述 代 码 ， 计 算 前 n 个 韭 波 那 契 (ibonacci) 数 : 
fibo[0] = fibof1l] = 1: 
for (i = 2; 1 < n; it+) 
fibo[i] = fibo[li—l1] + fibo[i—2]; 
尽管 怀疑 其 中 有 些 问 题 ， 但 我 们 还 是 用 一 个 paralle1 for 指令 并 行 化 这 个 for 循环 : 
fibo[0] = fibo[1] = 1; 
# pragma omp Parallel for num-tnreads(threagd-count1 
for (ti = 2; i < n; i++) 
fibo[il = fibori-l] + fibotli—2]; 
编译 器 将 创建 一 个 可 执行 文件 。 然 而 ， 如 果 试 图 用 多 于 一 个 线程 去 运行 它 ， 我 们 会 发 现 结 果 是 不 
可 预计 的 。 例 如 ， 在 我 们 的 一 个 系统 上 ， 如 果 试 图 使 用 两 个 线程 去 计算 前 10 个 斐 波 那 契 数 ， 则 
我 们 有 时 会 得 到 : 
1 1 2 3 5 8 13 21 34 55 
这 是 正确 的 。 然 而 ， 我 们 也 可 能 偶尔 得 到 
27 1 1 2 3 5 8 0 0 0 0 
究竟 发 生 了 什么 ? 似乎 运行 时 系统 将 fibol2] 、fibo[3] 、fibof4] 和 fibol5] 的 计算 分 
配给 了 一 个 线程 ， 而 将 fibo[6]、fibof7]j、fibo[8]j、fibo[9] 分 配给 了 另 一 个 线程 。( 记 
住 : 循环 从 i =2 开始 。) 在 程序 的 一 些 运行 结果 中 ， 结 果 之 所 以 正确 是 因为 被 分 配给 fibo[2] 、 
fibo[3] 、fibo[4] 和 fibo[5] 的 线程 在 男 一 个 线程 开始 前 就 完成 了 计算 。 然 而 ， 对 于 其 他 运 
行 结 果 ， 当 第 二 个 线程 计算 fibo[ 6 ] 时 ,第 一 个 线程 还 没有 计算 出 fibof 4] 和 fibo[ 5]。 系 统 
将 fibo 的 入 口 初始 化 为 0, 第 二 个 线程 使 用 值 fibo[4] =0 和 fibo[5] =0 来 计算 fibol6]。 
然后 它 继续 使 用 fibo[5] =0 和 fibo[6] =0 来 计算 fibo[7]， 以 此 类 推 。 
这 里 ， 我 们 看 到 两 个 要 点 : 
(1) OpenMP 编译 器 不 检查 被 paral1el for 指令 并 行 化 的 循环 所 包含 的 迭代 间 的 依赖 关系 ， 
而 是 由 程序 员 来 识别 这 些 依赖 关系 。 
(2) 一 个 或 更 多 个 迭代 结果 依赖 于 其 他 迭代 的 循环 ， 一 般 不 能 被 OpenMP 正确 地 并 行 化 。 
fibpo[6] 和 fibo[5] 计 算 间 的 依赖 关系 称 为 数据 依赖 。 由 于 fibo[5] 的 值 在 一 个 迭代 中 计 
算 ， 其 结果 在 之 后 的 迁 代 中 使 用 ， 该 依赖 关系 有 时 称 为 循环 依赖 〈loop-carried dependence)。 


5. 5.3 寻找 循环 依赖 
当 我 们 试图 使 用 一 个 paral1el for 指令 时 ， 首 先 应 该 注意 的 是 ; 要 小 心 发 现 循环 依赖 。 我 
们 不 需要 担心 一 般 的 数据 依赖 。 例 如 ， 在 下 列 循环 中 : 


1 for (i = 0; i < n; i+t+) { 
x[i] = a + ixh; 
y[i] = exp(x[i]):; 

} 


在 第 2 行 和 第 3 行 之 间 有 一 个 数据 依赖 。 然 而 ， 如 下 的 并 行 化 没有 问题 。 














入 


# pragma omp parallel for numthreads(thread-count ) 


1 

2 for (i = 0; i < n; it+t) { 
3 x[i] = a + ixh; 

4 y[i] = exp(x[i]1),; 

5 } 


因为 x[ i 的 计算 与 它 接 下 来 的 使 用 总 是 被 分 配给 同一 个 线程 。 
我 们 也 应 该 观察 到 ， 有 依赖 关系 的 语句 ， 其 中 至 少 一 条 语句 会 有 序 地 写 或 更 新 变量 。 因 此 为 
了 检测 循环 依赖 ， 我 们 只 需要 重点 观察 被 循环 体 更 新 的 变量 ， 即 我 们 应 该 寻找 在 一 个 迭代 中 被 读 
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或 被 写 ， 而 在 另 一 个 迭代 中 被 写 的 变量 。 我 们 来 看 几 个 例子 。 


5.5.4 zt 值 估计 
一 个 对 7 的 数值 估计 的 方法 是 使 用 下 列 公式 ”: 


L 1 1 _ > (-1)° 
7=41-3+5-7 了 了 +]=4 甩 2k+1 
我 们 能 够 在 串 行 代 码 中 实现 这 个 公式 。 


] double factor = 1.0; 

double sum = 0.0: 

for (k = 0; k < n; k++) 
Sum += factor/ {2x*k+l1); 
factor = —factor; 

} 


piapprox = 4.0xsum; 


(factor 的 类 型 是 double， 而 不 是 int 或 long， 为 什么 这 点 很 重要 ?) 
我 们 怎样 用 OpenMP 来 并 行 化 它 ? 我 们 可 能 首先 倾向 于 这 样 做 : 


double factor = 1.0; 
double sum = 0.0: 
# pragma omp parallel for num.threads(thread_count} \ 

reductiont+:sum) 

for (k= 0; k < nn; k++} [ 
sum += factor/ (2#*k+l1): 
factor = —factor; 

| 

pi-appraox = 4.0*Ssum: 


然而 ， 可 以 清楚 地 看 到 ， 在 第 k 次 迭代 中 对 第 7 行 的 factor 的 更 新 和 接 下 来 的 第 k + 1 次 迭代 
中 对 第 6 行 的 sum 的 累加 是 一 个 循环 依赖 。 如 果 第 k 次 迭代 被 分 配给 一 个 线程 ， 而 第 k+1 次 迭 
代 被 分 配给 另 一 个 线程 ， 则 我 们 不 能 保证 第 6 行 中 factor 的 值 是 正确 的 。 在 这 种 情况 下 ， 我 们 
能 通过 检查 系数 来 修复 这 个 问题 : 





起 1 


EAH 一 





2k+1 
我 们 可 以 看 到 : 在 第 上 次 迭代 中 ，factor 的 值 应 该 是 ( -1)*。 如 果 & 是 偶数 ， 那 么 值 是 +1; 
如 果 是 奇数 ， 值 是 -1。 因 此 ， 如 果 将 下 述 代码 : 


] sum += factor/(2*k+l); 


2 factor = —factor; 
蔚 换 为 : 
] if (k % 2 == 0) 
2 factor = 1.0 
3 else 
4 factor = —1.0 
5 Sum += factor/(2*k+1): 


或 者 ， 你 可 能 更 倾向 于 使 用 “?:” 操 作 符 : 


] factor = (Kk % 2 == 0)? 1.0 ; -1.0; 
2 Sum += factor/ (2xkt+l): 


就 消除 了 循环 依赖 性 。 
然而 ,事情 仍然 不 是 完全 正确 的 。 如 果 在 我 们 的 系统 上 使 用 两 个 线程 运行 程序 ， 并 设 n = 





”没有 估计 7 值 的 最 佳 方法 ， 因 为 它 需 要 许多 项 来 得 到 一 个 合理 准确 的 结果 。 然 而 ,我 们 对 公式 本 身 更 感 兴趣 。 
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1000， 那 么 结果 仍 是 错误 的 。 例 如 ， 


1 


2 
3 
4 


With n = 1000 terms and 2 threads, 

Our estimate of pi = 2.97063289263385 
With n = 1000 terms and 2 threads, 

Our estimate of pi = 3.22392164798593 


另 一 方面 ， 如 果 只 用 一 个 线程 运行 程序 ， 我 们 总 是 得 到 


1 
3 


With n = 1000 terms and 1 threads, 
Qur estimate of pi = 3.14059265383979 


到 底 哪 里 错 了 ? 
回想 一 下 ,在 一 个 已 经 被 paralle1 for 指令 并 行 化 的 块 中 ， 缺 省 情况 下 任何 在 循环 前 声明 
的 变量 〈 唯 一 的 例外 是 循环 变量 ) 在 线程 间 都 是 共享 的 。 因 此 factor 被 共享 。 例 如 ,线程 0 可 


能 会 给 


它 赋值 1， 但 在 它 能 用 这 个 值 更 新 sum 前 ,线程 1 可 能 给 它 赋值 -1 了。 因此， 除了 消除 


计算 factor 时 的 循环 依赖 外 ， 我 们 还 需要 保证 每 个 线程 有 它 自己 的 factor 副本 。 就 是 说 , 为 
了 使 代码 正确 ， 我 们 需要 保证 factor 有 私有 作用 域 。 通 过 添加 一 个 private 子 句 到 paral- 
1e1 指令 中 来 实现 这 一 目标 。 


ODECEAD ni 


double sum = 0.0; 
# pragma omp parallel for num-.threads(thread.count) \ 
reduction(+:sum) private(factor) 
for (k= 0: kX n; kt+) { 
if (kKk%O 2 == 0) 
factor = 1.0; 
else 
factor = 1.0; . 
SUM += factor/A(2+k+l ); 
} 


在 private 子 句 内 列举 的 变量 ， 在 每 个 线程 上 都 有 一 个 私有 副本 被 创建 。 因 此 ， 在 我 们 的 例子 
中 , thread_count 个 线程 中 的 每 一 个 都 有 它 自己 的 factor 变量 的 副本 ， 因 此 一 个 线程 对 
factor 的 更 新 不 会 影响 另 一 个 线程 的 factor 值 。 

要 记 住 的 重要 的 一 点 是 ， 一 个 有 私有 作用 域 的 变量 的 值 在 para1llel 块 或 者 parallel for 
块 的 开始 处 是 未 指定 的 。 它 的 值 在 parallel 或 parallel for 块 完成 之 后 也 是 未 指定 的 。 例 
如 ， 下 列 代码 中 的 第 一 个 printf 语句 的 输出 是 非 确定 的 ， 因 为 在 它 被 显 式 初始 化 之 前 就 打印 了 
私有 变量 x。 类 似 地 ， 最 终 的 printf 输出 也 是 非 确 定 的 ， 因 为 它 在 parallel 块 完 成 之 后 打 


印 x。 


ET 


int x = 5; 
# pragma omp parallel num.threads(thread_count) \ 
private(x) 
{ 
int my-rank = 0Omp-get-thread-num( ) ; 
printft"Thread %d > before initialization, x = %d\n", 
my-rank, x); 
x = 2xmy-rank + 2: 
printf("Thread %d > after initialization, x = %d\n", 
my_rank, x); 


} 
printf("After parallel block, x = %d\n", x); 


5. 5.5 关于 作用 域 的 更 多 问题 

关于 变量 factor 的 问题 是 常见 问题 中 的 一 个 。 我 们 通常 需要 考虑 在 paral1el1 块 或 par- 
allel for 块 中 的 每 个 变量 的 作用 域 。 因 此 ， 与 其 让 OpenMP 决定 每 个 变量 的 作用 域 ， 还 不 如 让 
程序 员 明 确 块 中 每 个 变量 的 作用 域 。 事 实 上 ，OpenMP 提供 了 一 个 子 句 default， 该 子 句 显 式 地 
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要 求 我 们 这 样 做 。 如 果 我 们 添加 子 句 


default (none) 


到 parallel 或 parallel for 指令 中 ,那么 编译 器 将 要 求 我 们 明确 在 这 个 块 中 使 用 的 每 个 变量 

和 已 经 在 块 之 外 声明 的 变量 的 作用 域 。( 在 一 个 块 中 声明 的 变量 都 是 私有 的 ， 因 为 它们 会 被 分 配 

给 线程 的 栈 。) 2 
例如 ， 使 用 一 个 defau1t(none) 子 名 ,对 7 的 计算 将 如 下 所 示 。 


doublie sun = 0.0; 

# pragma omp parallel for nyum.threads(threadcount) \ 
defaultinone) reductiont+r:Sstm) private(k, factor) \ 
sharedin) 

for ik = 0; k < 
if Ck 和 = 


ct 

Le 

-Ny 
[| 


else 
facter = ~—1.0; 
Sum += factor/ (2xk+l1); 
】 


在 这 个 例子 中 ， 我 们 在 for 循环 中 使 用 4 个 变量 。 由 于 default 子 句 ， 我 们 需要 明确 每 个 变量 的 
作用 域 。 正 如 我 们 已 经 注意 到 的 ，sum 是 一 个 归 约 变量 〈 辐 时 拥有 私有 和 共享 作用 域 的 属性 ) 。 
我 们 也 已 经 注意 到 factor 和 循环 变量 k 应 该 有 私有 作用 域 。 从 未 在 parallel1 或 parallel 
for 块 中 更 新 的 变量 ， 如 这 个 例子 中 的 n， 能 够 被 安全 地 共享 。 与 私有 变量 不 同 ， 共 享 变量 在 块 
内 具有 在 paralle1 或 parallel for 块 之 前 同样 的 值 ， 在 块 之 后 的 值 与 块 内 的 最 后 一 个 值 相 
同 。 因 此 ， 如 果 n 在 块 之 前 被 初始 化 为 1000， 则 在 paral1el for 语句 中 它 将 保持 这 个 值 。 因 为 
在 for 循环 中 值 没 有 改变 ， 所 以 在 循环 结束 后 它 将 保持 这 个 值 。 


5.6 更 多 关于 OpenMP 的 循环 : 排序 


5.6.1 冒 泡 排序 
对 一 组 整数 排序 的 串 行 冒 泡 排序 算法 能 够 如 下 实现 : 
for (list_iength = Nn; list_length >= Z; 1ist_ length- 一 ) 
for (i = 0; i «< list_lengtnh—l; i++) 
if (afi] > afi+r1]) 1 
tmp = a[il; 
ari] = a[irl]; 
aLi+l] = tmp; 
} 


这 里 ， 数 组 a 存储 n 个 int 型 整数 ， 算 法 将 它们 升序 排列 。 外 循环 首先 找到 列表 的 最 大 元 素 并 将 它 
存在 aLn - 1] 中， 然后 寻找 次 大 的 元 素 并 存在 a[n 2] 中， 以 此 类 推 。 因此， 第 一 遍 处 理 全 部 的 n 
个 元 素 。 第 二 遍 处 理 除了 最 大 元 素 外 的 所 有 元 素 ， 它 处 理 一 个 4-1 个 元 素 的 列表 ， 以 此 类 推 。 [232 

内 循环 比较 当前 列表 中 的 连续 元 素 对 。 当 发 现 一 对 是 无 序 的 时 候 (ali] > a[ i +1])， 就 交 
换 它 们 。 这 个 交换 过 程 将 移动 最 大 的 元 素 到 “当前 ”列表 的 最 后 ， 即 由 下 列 元 素 组 成 的 列表 : 


a[0]，a[l1]，，. .， a[list.length—1] 


显然 ， 在 外 部 循环 中 有 一 个 循环 依赖 ， 在 外 部 循环 的 任何 一 次 迭代 中 ， 当 前 列表 的 内 容 依 赖 
于 外 部 循环 的 前 一 次 迭代 。 例 如 ， 如 果 在 算法 开始 时 ，a =3,4,1,2， 那 么 外 部 循环 的 第 二 次 迭代 
将 对 列表 3,1,2 进行 操作 ， 因 为 4 在 第 一 次 迭代 中 应 该 已 经 被 移动 到 列表 的 最 后 了 。 但 如 果 前 两 
次 迭代 同时 执行 ， 则 有 可 能 第 二 次 迭代 的 有 效 列 表 包 含 4。 

内 部 循环 的 循环 依赖 也 很 容易 发 现 。 在 第 i 次 迭代 中 ， 被 比较 的 元 素 依赖 于 第 i -1 次 迭代 。 
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如 果 在 第 i-1 次 迭代 中 ，a[ i -1] 和 a[ 1] 没有 交换 ， 那么 第 i 次 迭代 将 比较 a[ i] 和 al i +1]。 
另 一 方面 ， 如 果 第 i-1 次 迭代 交换 了 a[i -1] 和 a[i] ， 那么 第 i 次 迭代 将 比较 原始 的 a[ i -1] 
(现在 是 a[i]) 和 a[i +1]。 例如， 假设 当前 列表 是 13,1,21。 那 么 当 i=1 时 ， 我们 将 比较 3 
和 2，, 但 如 果 i=0 和 i=1 次 迭代 同时 发 生 ， 则 完全 有 可 能 i=1 次 迭代 会 比较 1 和 2。 

我 们 完全 不 清楚 怎样 在 不 完全 重 写 算法 的 情况 下 移 除 任何 一 个 循环 依赖 。 记 住 ， 即 使 我 们 总 
能 找到 循环 依赖 ， 但 可 能 很 难 甚至 不 可 能 移 除 它 。 对 于 并 行 化 for 循环 而 言 ，paral1el for 指 
令 不 是 一 个 通用 的 解决 方案 。 


5. 6.2 奇偶 变换 排序 
奇偶 变换 排序 是 一 个 与 冒 泡 排序 相似 的 算法 ， 但 它 相 对 来 说 更 容易 并 行 化 。 回 想 一 下 3.7.1 
节 的 串 行 奇偶 排序 ， 有 如 下 实现 : 


for (phase = 0; phase《 n; phase++) 
if (phase % 2 == 0) 
for (i = 1; i < n; i += 2) 
if (afi-l1] > a[lij) Sabari 1].8&a[i]); 
else 
for (i = 1; i «< n-l:; i += 2) 
if (a[li] 》ari+l]) Swap(&a[i]，&ari+l]); 
列表 a 存储 = 个 整数 ， 算 法 对 它们 进行 升序 排列 。 在 一 个 “ 偶 阶 段 ”(phase% 2 = =0) 里 , 每 
个 偶 下 标 元 素 a[ i] 与 它 左边 的 元 素 a[i -1] 相 比较 。 如 果 它 们 是 没有 排 好 序 的 ， 就 交换 它们 。 
在 一 个 “ 奇 阶 段 ” 里 ， 每 个 奇 下 标 元 素 与 它 右边 的 元 素 相 比 较 。 如 果 它 们 是 没有 排 好 序 的 ， 则 交 
换 它们 。 有 定理 证 明 : 在 =” 个 阶段 后 ， 列 表 可 以 完成 排序 。 
作为 一 个 简单 的 例子 ,假设 3=19,7 ,8,61。 表 5-1 显示 了 各 个 阶段 的 情况 。 在 这 个 例子 中 ， 


最 后 的 阶段 不 是 必要 的 ,但 算法 并 不 在 执行 每 个 阶段 前 检查 列表 是 否 已 经 有 序 。 
表 5-1 串 行 的 奇偶 变换 排序 
数组 的 下 标 








mm A Co 
-2 2 +- om oo 0 0 |i- 
om mo 了 a mh 
DDNDaoo oo oo | 


不 难看 到 外 部 循环 有 一 个 循环 依赖 。 例 如 ， 假 设 在 a = 19,7,8,6| 之 前 。 在 阶段 0 中， 内 部 
循环 将 比较 (9, 7) 和 (8，6) 这 两 对 中 的 元 素 ， 这 两 对 都 会 被 交换 。 因 此 对 于 阶段 1， 列 表 将 
是 17 ,9,6 ,8|， 并 在 阶段 1 中 (9,6) 中 的 元 素 被 比较 并 交换 。 然 而 ， 如 果 阶 段 0 和 阶段 1 同时 
执行 ， 则 在 阶段 1 中 被 检查 的 可 能 是 (7,， 8) ， 是 有 序 的 。 此 外 ， 我 们 尚 不 清楚 如 何 消除 这 个 循 
环 依 赖 ， 因 此 并 行 化 外 部 for 循环 不 是 一 个 好 的 选择 。 

但 是 ， 内 部 for 循环 并 没有 任何 循环 依赖 。 例 如 ， 在 偶 阶段 循环 中 ， 变 量 ; 是 奇数 ， 所 以 对 
于 两 个 不 同 的 i 值 , 例如 ,i =J 和 zi=E，17-1 放 和 人 -1，5 将 是 不 同 的 。(a[j 一 1]， 
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a[j]) 和 和 (alk 一 1] ，a[k]) 所 产生 的 比较 和 可 能 的 交换 能 够 同时 进行 。 

所 以 ,我 们 试图 使 用 程序 5-4 的 代码 并 行 化 奇偶 变换 排序 ， 但 还 是 会 有 一 些 潜在 的 问题 。 首 
先 ， 尽管 任何 一 个 偶 阶 段 迭代 并 不 依赖 任何 这 个 阶段 的 其 他 迭代 ,但 是 还 需要 注意 ， 对 p 阶段 和 
p+1 阶段 却 不 是 这 样 的 。 我 们 需要 确定 在 任何 一 个 线程 开始 p +1 阶段 之 前 ， 所 有 的 线程 必须 先 
完成 p 阶段 。 然 而 , 像 paralle1 指令 那样 ，paralle] for 指令 在 循环 结束 处 有 一 个 隐 式 的 路 
障 ， 因 此 ， 在 所 有 的 线程 完成 当前 阶段 〈 即 阶段 P) 之 前 ， 没 有 线程 能 够 进入 下 一 个 阶段 ， 即 
P+1 阶 段 。 

其 次 ， 是 创建 和 合并 线程 的 开销 。OpenMP 实现 可 能 会 在 每 一 遍 外 部 循环 都 创建 和 合并 
thread_count 个 线程 。 表 5-2 的 第 一 行 显示 了 当 输 入 列表 包含 20 000 个 元 素 时 ， 在 我 们 系统 上 
运行 1、2、3、4 个 线程 的 运行 时 间 。 

程序 54 ”奇偶 排序 的 第 一 个 OpenMP 实现 








for (phase = 0; phase《 ni phase++) { 


l 

2 if (phase % 2 == 0) 

3 和 # pragma omp parallel for num-threads(thread-count ) \ 
4 default(none) shared(a, n) private({i, tmp) 
5 for (i =1;i<n;i+= 2) { 

6 if (a[i-l] > a[il]} { 

7 tmp = afi—l]: 

8 a[i—l1] = ali]: 

9 a[fi] = tmp; 

10 } 

让 | 

12 else 

13 并 pragma omp parallel for rnum.threads(thread_count} \ 
14 defaulttnone) shared(a, n) private(i, tmp) 
15 for (i = 1:; i< nl; i += 2) 1 

16 if (ai] > ari+l]) { 

17 tmp = a[it1]): 

18 ar[i+l] = afji]; 

19 afi] = tmp; 

20 } 

21 } 

22 } 













thread_count 
两 条 parallel for 语句 
两 条 for 语句 














这 些 时 间 耗 费 并 不 非常 糟糕 ， 但 是 我 们 想 看 看 是 否 能 做 得 更 好 。 每 次 执行 内 部 循环 时 ， 使 用 
同样 数量 的 线程 。 因 此 只 创建 一 次 线程 ， 并 在 每 次 内 部 循环 的 执行 中 重用 它们 ， 这 样 做 可 能 更 
好 。 幸 运 的 是 ，OpenMP 提供 了 允许 这 样 做 的 指令 。 用 parallel 指令 在 外 部 循环 前 创建 
thread_count 个 线程 的 集合 。 然 后 ， 我 们 不 在 每 次 内 部 循环 执行 时 创建 一 组 新 的 线程 ， 而 是 使 
用 一 个 for 指令 ， 告 诉 OpenMP 用 已 有 的 线程 组 来 并 行 化 for 循环 。 对 原 有 OpenMP 实现 的 改动 


显示 在 程序 5-5 中 。 
程序 5-5 ”奇偶 排序 的 第 二 个 OpenMP 实现 
# pragma omp parailel numthreads(thread.count) \ 


] 
2 default(none) shared(a, Nn) private(i, tmp,. phase) 
3 for (phase = 0; phase < mi phase++) 上 
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4 if (phase % 2 == 0) 

5 # pragma omp for 

6 for {i =1:; 1i<n;i+= 2) 1 
7 if (a[i—l] > a[i]) { 

8 tmp = a[i—l1]; 

9 afi-!] = a[lil]; 

10 a[i}y = tmp; 

11 } 

12 } 

13 else 

14 人 # pragma omp for 

15 for (i = i; i < nl; i += 2) | 
16 if (Cafi] > afi+l]3y7 1{ 

17 tmp = afli+1]; 

18 a[i+1] = a[i]; 

19 a[i] = tmp; 

20 } 

21 } 

22 } 


与 paralle] for 指令 不 同 的 是 ，for 指令 并 不 创建 任何 线程 。 它 使 用 已 经 在 paral lel 块 中 创 
区 3 引 建 的 线程 。 在 循环 的 末尾 有 一 个 隐 式 的 路 障 。 代 码 的 结果 (最 终 列 表 ) 将 因此 与 原 有 的 并 行 化 代 
码 所 得 到 的 结果 一 样 。 
奇偶 排序 的 第 二 个 版 本 的 运行 时 间 显示 在 表 5-2 的 第 二 行 。 当 使 用 两 个 或 更 多 线程 时 ， 使 用 
两 条 for 指令 的 版 本 要 比 使 用 两 条 para11e1 for 指令 的 版 本 快 17% 。 因 此 对 于 这 个 系统 而 言 ， 
为 这 点 改变 所 做 的 小 小 努力 是 值得 的 。 


5.7 循环 调度 
当 第 一 次 遇 到 paral]el for 指令 时 ， 我 们 看 到 将 各 次 循环 分 配给 线程 的 操作 是 由 系统 完成 
的 。 然 而 ， 大 部 分 的 OpenMP 实现 只 是 粗略 地 使 用 块 分 割 : 如 果 在 串 行 循环 中 有 次 迭代 ， 那 么 在 
并 行 循 环 中 ,前 mthread_count 个 迭代 分 配给 线程 0， 接 下 来 的 wwthread_count 个 和 迭代 分 配 
给 线程 1， 以 此 类 推 。 不 难 想到 ， 这 种 分 配方 式 肯定 不 是 最 优 的 。 例 如 ， 假 设 我 们 想 要 并 行 化 循环 : 
Sum = 0.0; 


for (i = 0; 1 <= Nn; j++) 
Sum += f(i); 


236| 同时 ， 假 设 对 ff 函数 调用 所 需要 的 时 间 与 参数 i 的 大 小 成 正比 ， 那 么 与 分 配给 线程 0 的 工作 相 比 ， 
分 配给 线程 thread_count -1 的 工作 量 相 对 较 大 。 一 个 更 好 的 分 配方 案 是 轮流 分 配 线程 的 工作 
(循环 划分 ) 。 在 循环 划分 中 ， 各 次 迭代 被 “轮流 ”地 一 次 一 个 地 分 配给 线程 。 假 设 1= thread_ 
count 。 那 么 一 个 循环 划分 将 如 下 分 配 各 次 迭代 : 












迭代 






0, n=t, 2n=t, 








1l, n/t+l, 2n/t+l1, t—1, n/t+t—1, 2n/t+t—-1, 





为 了 了 解 这 样 的 分 配 是 如 何 影 响 性 能 的 ， 我 们 编写 了 如 下 程序 。 


double f(int 1) { 
int j, start = ix(i+1)/2, finish = start + 1; 
double return-val = 0.0; 


for (j = start; j 《= finish; j++) { 
returnval += sin(j); 


return return.val; 
} A* fF */ 
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每 次 函数 (i) 调用 i 次 sin 函数 。 例 如 ， 执行 j (2i) 的 时 间 几 乎 是 执行 / (i) 的 时 间 的 两 倍 。 
当 n=10 000 并 且 只 用 一 个 线程 运行 程序 时 ， 运 行 时 间 是 3. 67 秒 。 当 用 两 个 线程 和 缺 省 分 配 
方式 (第 0 ~5000 次 和 迭代 分 配给 线程 0、 第 5001 ~ 10 000 次 迭代 分 配给 线程 1) ， 运 行程 序 时 ， 运 
行 时 间 是 2.76 秒 。 加 速 比 仅 为 1.33。 然 而 ， 当 运行 两 个 线程 并 采用 循环 划分 时 ， 运 行 时 间 减 少 
到 1. 84 秒 。 与 单线 程 运行 相 比 ， 加 速 比 为 1. 99; 与 双 线 程 、 块 分 割 相 比 ， 加 速 比 为 1. 51 
我 们 看 到 一 个 好 的 迭代 分 配 能 够 对 性 能 有 很 大 的 影响 。 在 OpenMP 中 ， 将 循环 分 配给 线程 称 
为 调度 ，schedule 子 句 用 于 在 parallel1 for 或 者 for 指令 中 进行 迭代 分 配 。 


5.7.1 Schedule 子 句 
在 例子 中 ， 我 们 已 经 知道 如 何 获得 缺 省 调度 : 只 需要 添加 parallel for 指令 和 reduc- 
tion 子 句 ， 


sum = 0.0; 
大 pragma omp parallel for numthreads(thread.count) \ 
reduction(+;sum) 
for (i = 0; i <= nN; i++} 
sum += f(i); 


为 了 对 线程 进行 调度 ， 可 以 添加 一 个 schedule 子 名 到 parallel for 指令 中 : 


sum = 0.0; 
# pragma omp parallel for num_.threads(thread.count) \ 
reduction(+:sum) Schedule(static,1) 
for (i = 0; i <= ni i++r) 
Sum += f(i}: 


一 般 而 言 ，schedule 子 句 有 如 下 形式 : 


schedule(<type> [, 《chunksize>]) 


type 可 以 是 下 列 任 意 一 个 : 
static。 和 迭代 能 够 在 循环 执行 前 分 配给 线程 。 
dynamic 或 guided。 和 迭代 在 循环 执行 时 被 分 配给 线程 ， 因 此 在 一 个 线程 完成 了 它 的 当 
前 迁 代 集合 后 ， 它 能 从 运行 时 系统 中 请 求 更 多 。 
auto。 编 译 器 和 运行 时 系统 决定 调度 方式 。 

。 runtime。 调 度 在 运行 时 决定 。 

chunksize 是 一 个 正 整数 。 在 OpenMP 中 ,和 迭代 块 是 在 顺序 循环 中 连续 执行 的 一 块 迭 代 语 
和 句 ， 块 中 的 迭代 次 数 是 chunksize。 只 有 static、dynamic 和 guided 调度 有 chunksize。 
这 虽然 决定 了 调度 的 细节 ， 但 准确 的 解释 还 是 依赖 于 type。 


5.7.2 static 调度 类 型 

对 于 static 调度 ， 系 统 以 轮转 的 方式 分 配 chunksize 块 个 迭代 给 每 个 线程 。 例 如 ， 假设 
有 12 个 迭代 0、1、…、11 和 三 个 线程 ， 如 果 在 parallel for 或 for 指令 中 使 用 schedule 
(static,1) ， 和 迭代 将 如 下 分 配 : 


Thread 0:0，3，6， 9 
Thread 1: 1, 4, 7, 10 
Thread 2. 2, 5, 8, 11 
如 果 使 用 schedulet static,2 ) ， 迭 代 将 如 下 分 配 ， 
Thread 0:0，1，6，7 
Thread 1:2，3，8，9 
Thread 2. 4, 5, 10, 11 
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如 果 使 用 schedule( static,4) ， 迭 代 将 如 下 分 配 : 
Thread 0: 0, 1, 2, 3 
Thread 1: 4, 5, 6, 7 
Thread 2. 8, 9, 10, 11 
因此 , 子 句 Schedule ( static,total_iterations thread_count) 就 相当 于 被 大 部 分 
OpenMP 实现 所 使 用 的 缺 省 调度 。 
这 里 ，chunksize 可 以 被 忽略 。 如 果 它 被 忽略 了 ，chunksize 就 近似 等 于 total_itera- 
tions /thread_count。 : 


5.7.3 dynamic 和 guided 调度 类 型 

在 dynamic 调度 中 ， 迭 代 也 被 分 成 chunksize 个 连续 迭代 的 块 。 每 个 线程 执行 一 块 ， 并 且 
当 一 个 线程 完成 一 块 时 ， 它 将 从 运行 时 系统 请 求 男 一 块 ， 直 到 所 有 的 迭代 完成 。Chunksize 可 
以 被 忽略 。 当 它 被 忽略 时 ，chunksize 为 1。 

在 guided 调度 中 ， 每 个 线程 也 执行 一 块 ， 并 且 当 一 个 线程 完成 一 块 时 ， 将 请 求 另 一 块 。 然 
而 ,在 guided 调度 中 ， 当 块 完成 后 ， 新 块 的 大 小 会 变 小 。 例 如 ， 在 我 们 的 系统 上 ， 如 果 用 par- 
allel for 指令 和 schedule (guided) 子 名 来 运行 梯形 积分 法 程序 ， 那么 当 n =10 000 并 且 
thread_count =2 时 ， 迭代 将 如 表 5-3 那样 分 配 。 块 的 大 小 近似 等 于 剩 下 的 迭代 数 除 以 线程 数 。 
第 一 块 的 大 小 为 9999/2 =5000 ， 因 为 有 9999 个 未 被 分 配 的 迭代 。 第 二 块 的 大 小 为 41999/2 二 2500， 


表 5-3 使 用 guided 调度 为 两 个 线程 分 配 梯形 积分 法 的 1 ~9999 次 和 迭代 






























































线程 块 块 的 大 小 剩 下 的 迭代 次 数 

0 1 ~5000 5000 4999 
1 5001 ~ 7500 2500 2499 
1 7501 ~ 8750 1250 | 1249 
1 8751 ~9375 625 624 
0 9376 ~ 9687 312 312 
1 9688 ~ 9843 156 156 
0 9844 ~ 9921 | 78 78 
1 9922 ~ 9960 39 39 
1 9961 ~ 9980 20 19 
1 9981 ~ 9990 10 9 
1 9991 ~ 9995 5 | 4 
0 9996 ~ 9997 2 2 
1 9998 ~ 9998 1 1 

0 9999 ~ 9999 1 0 











在 guided 调度 中 ， 如 果 没 有 指定 chunksize， 那么 块 的 大 小 为 1; 如果 指 定 了 chunk- 
size， 和 那么 块 的 大 小 就 是 chunksize， 除 了 最 后 一 块 的 大 小 可 以 比 chunksize 小 。 


5.7.4 runtime 调度 类 型 
为 了 理解 Schedule(runtime) ， 我们 需要 离 题 一 会 儿 ， 讨 论 一 下 环境 变量 。 正 如 名 字 所 暗 
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示 的 ， 环 境 变 量 是 能 够 被 运行 时 系统 所 访问 的 命名 值 ， 即 它们 在 程序 的 环境 中 是 可 得 的 。 一 些 经 
常 被 使 用 的 环境 变量 是 PATH、HOME 和 SHELL。PATH 变量 明确 了 当 寻 找 一 个 可 执行 文件 时 shell 
应 该 搜索 哪些 目录 。 它 通常 在 UNI 和 Windows 系统 中 定义 。HOME 变量 指定 用 户主 目录 的 位 置 ， 
而 SHELL 变量 指定 用 户 shell 的 可 执行 位 置 。 这 些 通常 定义 在 UNIX 系统 中 。 在 类 UNIX 系统 ( 例 
如 Linux 和 Mac OS X) 和 Windows 中 ， 环 境 变 量 能 够 在 命令 行 中 检查 和 指定 。 在 类 UNIX 系统 中 ， 
能 使 用 shel 命令 行 ; 在 Windows 中 ， 能 使 用 集成 开发 环境 的 命令 行 。 

例如 ， 如 果 我 们 正 使 用 bash shell ， 要 检查 一 个 环境 变量 的 值 只 需要 输入 


$ scho $PATH 


我 们 能 够 使 用 export 命令 来 设置 一 个 环境 变量 的 值 


$ export TEST.VAR="hello" 


如 何 检 查 和 设置 特定 系统 的 环境 变量 ， 请 咨询 本 地 系统 的 专家 。 

当 schedule(runtime) 指 定时 ， 系统 使 用 环境 变量 0MP_SCHEDULE 在 运行 时 来 决定 如 何 调 
度 循环 。0MP_SCHEDULE 环境 变量 会 呈现 任何 能 被 Static .dynamic 或 guided 调度 所 使 用 的 值 。 
例如 ,假设 在 程序 中 有 一 条 parallel for 指令 ， 并 且 它 已 经 被 schedule(runtime) 修 改 了 ， 那 
么 如 果 使 用 bash shell ， 就 能 通过 执行 以 下 命令 将 一 个 循环 分 配 所 得 到 的 迭代 分 配给 线程 : 

$ export OMP_SCHEDULE="static,1" 


现在 ， 当 开始 执行 程序 时 ， 系 统 将 调度 for 循环 的 迭代， 就 如 同 使 用 子 句 Schedule(static,]) 
修改 了 parallel for 指令 那样 。 


5.7.5 调度 选择 

如 果 需 要 并 行 化 一 个 for 循环 ， 那 么 我 们 如 何 决定 使 用 哪 一 种 调度 和 chuncksize 的 大 小 ? 
”实际 上 ， 每 一 种 schedule 子 句 有 不 同 的 系统 开销 。dynamic 调度 的 系统 开销 要 大 于 static 
调度 ， 而 guided 调度 的 系统 开销 是 三 种 方式 中 最 大 的 。 因 此 ， 如 果 不 使 用 schedule 子 句 就 已 
经 达到 了 令 人 满意 的 性 能 ， 就 不 需要 再 进行 多 余 的 工作 。 但 是 ， 如 果 我 们 怀疑 默认 调度 的 性 能 可 
以 提升 ， 那 么 我 们 可 以 对 各 种 调度 进行 试验 。 

在 本 节 开 始 提供 的 例子 中 ， 在 程序 使 用 两 个 线程 的 情况 下 ， 使 用 schedulel static,1 ) 代 替 
默认 调度 时 ， 加 速 比 从 1. 33 增加 到 1. 99。 因 为 在 两 个 线程 的 条 件 下 ， 加 速 比 几 乎 不 可 能 比 1. 99 
更 好 ， 所 以 我 们 可 以 不 用 再 尝试 其 他 的 调度 方式 ， 至 少 在 只 用 两 个 线程 并 且 人 迭代 数 为 10 000 的 情 
况 下 是 这 样 。 如 果 做 更 多 的 试验 ， 改 变 线程 的 个 数 和 和 迭代 的 次 数 ， 我 们 可 能 会 发 现 : 最 优 的 调度 
方式 是 由 线程 的 个 数 和 迭代 的 次 数 共同 决定 的 。 

如 果 我 们 断定 默认 的 调度 方式 性 能 低下 ， 那 么 我 们 会 做 大 量 的 试验 来 寻找 最 优 的 调度 方式 和 
和 迭代 次 数 。 在 进行 了 大 量 的 工作 以 后 ， 我 们 可 能 发 现 ， 这 些 循 环 没有 得 到 很 好 的 并 行 化 ， 没 有 哪 
一 种 调度 可 以 带 来 比较 显著 的 性 能 提升 。 编 程 作 业 5. 4 就 是 这 样 的 一 个 例子 。 

但 在 某 些 情况 下 ， 应 该 优先 考虑 有 些 调 度 : 

。 如 果 循 环 的 每 次 迭代 需要 几乎 相同 的 计算 量 ， 那 么 可 能 默认 的 调度 方式 能 提供 最 好 的 

性 能 。 


。 如 果 幅 着 循环 的 进行 ， 和 迭代 的 计算 量 线性 递增 (或 者 递减 ) ， 那 么 采用 比较 小 的 chunck- 


size 的 static 调度 可 能 会 提供 最 好 的 性 能 。 

。 如 果 每 次 迭代 的 开销 事先 不 能 确定 ， 那 么 就 可 能 需要 尝试 使 用 多 种 不 同 的 调度 策略 。 在 这 
种 情况 下 ， 应 当 使 用 schedule(runtime) 子 句 , 通 过 赋予 环境 变量 0MP_SCHEDULE 不 
同 的 值 来 比较 不 同调 度 策略 下 程序 的 性 能 。 
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5.8 生产 者 和 消费 者 问题 
本 节 将 讨论 一 个 不 适合 用 paralle1 for 指令 或 者 for 指令 来 并 行 化 的 问题 。 


5.8.1 队列 

队列 是 一 种 抽象 的 数据 结构 ， 插 入 元 素 时 将 元 素 插 入 到 队列 的 “尾部 ”， 而 读 取 元 素 时 ， 队 
列 “ 头 部 ”的 元 素 被 返回 并 从 队列 中 被 移 除 。 队 列 可 以 看 做 是 在 超市 中 等 待 付款 的 消费 者 的 抽 
象 ， 队 列 中 的 元 素 是 消费 者 。 新 的 消费 者 到 达 时 排 在 等 待 队列 的 尾部 ， 下 一 个 付款 离开 等 待 队列 
的 是 排 在 队列 头 部 的 消费 者 。 

当 一 个 新 的 元 素 插入 到 队列 的 尾部 时 ， 通 常 称 这 个 新 的 元 素 “ 人 队 ” 了 ; 当 一 个 元 素 从 队列 
的 头 部 被 移 除 时 ， 通 常 称 这 个 元 素 “ 出 队 ” 了 。 

队列 在 计算 机 科学 中 随处 可 见 。 例 如 ， 如 果 有 多 个 进程 ， 每 个 进程 都 试图 向 硬盘 写 人 数据 ， 
为 了 确保 每 次 只 有 一 个 进程 在 写 硬 盘 ， 一 种 自然 而 然 的 方法 是 将 进程 组 织 为 队列 。 换 句 话 说 ， 排 
在 队列 第 一 个 的 进程 在 当前 进程 结束 对 硬盘 的 使 用 后 ， 第 一 个 获得 硬盘 的 访问 权限 ; 排 在 队列 第 
二 个 的 进程 在 排 在 队列 第 一 个 的 进程 使 用 完 硬 盘 后 获得 硬盘 的 访问 权限 ， 以 此 类 推 。 

队列 也 是 在 多 线程 应 用 程序 中 经 常 使 用 到 的 数据 结构 。 例 如 ， 我 们 有 几 个 “生产 者 ”线程 和 
几 个 “消费 者 ”线程 。 生 产 者 线程 “产生 ”对 服务 器 数据 的 请 求 一 一 例如 当前 股票 的 价格 ， 而 
消费 者 线程 通过 发 现 和 生成 数据 〈 例 如 ， 当 前 股票 的 价格 ) 来 “消费 ”请 求 。 生 产 者 线程 将 请 
求人 队 ， 而 消费 者 线程 将 请 求 从 队列 中 移出 。 在 这 个 例子 中 ， 只 有 当 消 费 者 线程 将 请 求 的 数据 发 
送 给 生产 者 线程 时 ， 进 程 才 会 结束 。 


5. 8.2 消息 传递 

生产 者 和 消费 者 问题 模型 的 另外 一 个 应 用 是 在 共享 内 存 系统 上 实现 消息 传递 。 每 一 个 线程 有 
一 个 共享 消息 队列 ， 当 一 个 线程 要 向 另外 一 个 线程 “发 送 消息 ”时 ， 它 将 消息 放 人 目标 线程 的 消 
息 队 列 中 。 一 个 线程 接收 消息 时 只 需 从 它 的 消息 队列 的 头 部 取出 消息 。 

这 里 我 们 将 实现 一 个 简单 的 消息 传递 程序 ， 在 这 个 程序 中 ， 每 个 线程 随机 产生 整数 “消息 ” 
和 消息 的 目标 线程 。 当 创建 一 条 消息 后 ,线程 将 消息 加 入 到 合适 的 消息 队列 中 。 当 发 送 消息 之 
后 ， 该 线程 查看 它 自己 的 消息 队列 以 获知 它 是 否 收 到 了 消息 ， 如 果 它 收 到 了 消息 ， 它 将 队 首 的 消 
息 出 队 并 打印 该 消息 。 每 个 线程 交替 发 送 和 接收 消息 ， 用 户 需 要 指定 每 个 线程 发 送 消息 的 数目 。 
当 一 个 线程 发 送 完 所 有 的 消息 后 ， 该 线程 不 断 接收 消息 直到 其 他 所 有 的 线程 都 已 完成 ， 此 时 所 有 
的 线程 都 结束 了 。 每 个 线程 的 伪 代 码 如 下 : 


for (Sentmsgs = 0; sent.msgs < send_max; sent_msgs++) 1 
Send-msg(): 
Try-receive(); 

| 


while (!Done()} 
Try.receive(),; 


5. 8. 3 发 送 消息 

需要 注意 的 是 ,访问 消息 队列 并 将 消息 入 队 ， 可 能 是 一 个 临界 区 。 尽 管 我 们 还 没有 深入 地 研 
究 如 何 实现 消息 队列 ， 但 我 们 很 有 可 能 需要 用 一 个 变量 来 跟踪 队列 的 尾部 。 例 如 ， 使 用 一 个 单 链 
表 来 实现 消息 队列 ， 链 表 的 尾部 对 应 着 队列 的 尾部 。 然 后 ， 为 了 有 效 地 进行 人 队 操作 ， 需 要 存储 
指向 链表 尾部 的 指针 。 当 一 条 新 消息 入 队 时 ， 需 要 检查 和 更 新 这 个 队 尾 指针 。 如 果 两 个 线程 试图 
同时 进行 这 些 操作 ， 那 么 可 能 会 丢失 一 条 已 经 由 其 中 一 个 线程 人 队 的 消息 。 画 张 图 能 够 有 助 于 
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理解 这 种 情况 !) 两 个 操作 的 结果 会 发 生 冲 突 ， 因 此 人 队 操 作 形 成 了 临界 区 。 
Send_msg() 陋 数 的 伪 代 码 如 下 : 


mesg = randomt ) ; 
dest = random() % thread-count ; 

# _ pragma omp critical 
Enqueue(queue，dest，my-rank，mesg); 


注意 在 上 面 的 实现 中 ， 人 允许 线程 向 它 自己 发 送 消息 。 


5. 8.4 接收 消息 

接收 消息 的 同步 问题 与 发 送 消息 有 些 不 同 。 只 有 消息 队列 的 拥有 者 〈 即 目标 线程 ) 可 以 从 给 
定 的 消息 队列 中 获取 消息 。 如 果 消 息 队 列 中 至 少 有 两 条 消息 ， 那 么 只 要 每 次 只 出 队 一 条 消息 ， 那 
么 出 队 操 作 和 入 队 操 作 就 不 可 能 冲突 。 因 此 如 果 队 列 中 至 少 有 两 条 消息 ， 通 过 跟踪 队列 的 大 小 就 
可 以 避免 任何 同步 (例如 critical 指令 ) 。 

现在 的 问题 是 如 何 存 储 队 列 大 小 。 如 果 只 使 用 一 个 变量 来 存储 队列 的 大 小 ， 那 么 对 该 变量 的 
操作 会 形成 临界 区 。 然 而 可 以 使 用 两 个 变量 : enqueued 和 dequeued， 那么 队列 中 消息 的 个 数 
(队列 的 大 小 ) 就 为 


queue-size = enqueued — dequeued 


并 且 ， 唯 一 能 够 更 新 dequeued 的 线程 是 消息 队列 的 拥有 者 。 可 以 看 到 在 一 个 线程 使 用 en - 


queued 计算 队列 大 小 queue_size 的 同时 ， 另 外 一 个 线程 可 以 更 新 enqueued。 为 了 解释 这 种 
情况 ,假设 进程 g 正在 计算 queue_size， 那 么 它 将 可 能 得 到 enqueued 新 的 或 者 旧 的 值 。 当 
queue_size 实际 的 值 是 1 或 者 2 时 ,线程 g 可 能 会 得 到 queue_size 是 0 或 者 1。 但 这 只 会 引 
起 程序 一 定 的 延迟 ， 而 不 会 引起 程序 错误 。 如 果 queue_size 本 应 该 是 1， 却 误 计算 为 0， 那 么 
线程 g 延迟 一 段 时 间 后 会 试图 重新 计算 队列 的 大 小 ; 如 果 queue_size 本 应 该 是 2， 却 误 计 算 为 
1， 和 那么 线程 9 将 执行 临界 区 指令 ， 虽 然 这 本 来 是 不 必要 的 。 

因此 ， 可 以 按照 如 下 的 方式 实现 Try_receive: 

queue.size = enqueued — dequeued:; 

if (queue.size == 0) return: 


else if (queue.size == 1) 
# pragma omp critical 
Dequeue(queue, &src, &mesg); 
else 
Dequeue(queue，&Ssrc，&mesg) ; 
Print.message(src, mesg); 


5. 8.5 终止 检测 
接 下 来 ， 我 们 探讨 如 何 实现 Done 函数 。 首 先 , 我 们 给 出 一 个 “直接 ”的 实现 ,但 这 个 实现 
隐藏 着 问题 : 


quUeue-size = enqueued — dedueued ; 
if (queue.size == 0) 
return TRUE ; 
else 
return FALSE; 


如 果 线 程 u 执行 这 段 代 码 ， 那 么 很 有 可 能 有 些 线程 ， 如 线程 。， 在 线程 计算 出 queue_size = 
0 后 向 线程 4 发 送 一 条 消息 。 当 然 ， 线 程 u 在 得 出 queue_size = 0 后 将 终止 ， 那 么 线程 "发送 
给 它 的 消息 就 永远 不 会 被 接收 到 。 

然而 ， 在 我 们 的 程序 中 ， 每 个 线程 在 执行 完 for 循环 后 将 不 再 发 送 任何 消息 。 因 此 可 以 增加 
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一 个 计数 器 done_sending， 每 个 线程 在 for 循环 结束 后 将 该 计数 器 加 1，Done 的 实现 如 下 ， 


queue_size = enqueued 一 dequeued:; 

if (queue_-size == 0 && done-sending == thread.count) 
return TRUE; 

else 
return FALSE; 


5.8.6 启动 

当 程 序 开始 执行 时 ， 主 线程 将 得 到 命令 行 参数 并 且 分 配 一 个 数组 空间 给 消息 队列 ， 每 个 线程 
对 应 着 一 个 消息 队列 。 由 于 每 个 线程 可 以 向 其 他 任意 的 线程 发 送 消息 ， 所 以 这 个 数组 应 该 被 所 有 
的 线程 共享 ， 而且 每 个 线程 可 以 向 任何 一 个 消息 队列 插入 一 条 消息 。 消 息 队 列 ( 至 少 ) 可 以 
存储 : 

。 消息 列表 

。 队 尾 指针 或 索引 

。 队 首 指针 或 索引 

。 人 队 消 息 的 数目 

。 出 队 消 息 的 数目 

最 好 将 队列 存在 消息 队列 的 结构 体 中 ， 为 了 减少 参数 传递 时 复制 的 开销 ， 最 好 用 指向 结构 体 
2 的 指针 数组 来 实现 消息 队列 。 因 此 ， 一 旦 主线 程 分 配 了 队列 数组 ， 就 可 以 使 用 paral 1el 指令 开 
始 执行 线程 ， 每 个 线程 可 以 为 自己 的 队列 分 配 存储 空间 。 

这 里 一 个 重要 的 问题 是 : 一 个 或 者 多 个 线程 可 能 在 其 他 线程 之 前 完成 它 的 队列 分 配 。 如 果 这 
种 情况 出 现 了 ， 那 么 完成 分 配 的 线程 可 能 会 试图 开始 向 那些 还 没有 完成 队列 分 配 的 线程 发 送 消 
息 ， 这 将 导致 程序 崩溃 。 因 此 ， 我 们 必须 确保 任何 一 个 线程 都 必须 在 所 有 的 线程 都 完成 了 队列 分 
配 后 才 开始 发 送 消息 。 回 想 一 下 ， 之 前 我 们 见 过 一 些 OpenMP 指令 在 结束 时 提供 隐 式 路 障 ， 即 任 
何 一 个 线程 都 必须 等 到 组 中 所 有 的 线程 完成 了 某 个 程序 块 后 才 可 以 接着 执行 后 续 代 码 。 然 而 ,在 
这 个 例子 中 ， 我 们 处 于 paralie1 块 的 中 间 ， 所 以 我 们 不 能 依赖 于 OpenMP 提供 的 隐 式 路 障 
我 们 应 当 使 用 显 式 的 路 障 。 幸 运 的 是 ，OpenMP 提供 了 相应 的 指令 ; 


# pragma omp barrier 


当 线程 遇 到 路 障 时 ， 它 将 被 阻塞 ， 直 到 组 中 所 有 的 线程 都 到 达 了 这 个 路 障 。 当 组 中 所 有 的 线程 都 
到 达 了 这 个 路 障 时 ， 这 些 线程 就 可 以 接着 往 下 执行 。 
5. 8.7 atomic 指令 

发 送 完 所 有 的 消息 后 ， 每 个 线程 在 执行 最 后 的 循环 以 便 接收 消息 之 前 ， 需 要 对 done_send- 
ing 加 1。 显 然 , 对 done_sending 的 增 量 操作 是 临界 区 ， 可 以 通过 critical 指令 来 保护 它 。 
然而 ，OpenMP 提供 了 另外 一 种 可 能 更 加 高 效 的 指令 : atomic 指令 : 


# pragma omp atomic 


与 critical 指令 不 同 ， 它 只 能 保护 由 一 条 C 语言 赋值 语句 所 形成 的 临界 区 。 此 外 ， 语 句 必须 是 
以 下 几 种 形式 之 一 : 

x 《0p>= 《expression>; 

x 

XO——; 

—x; 


< op > 可 以 是 以 下 任意 的 二 元 操作 符 ; 





第 5 章 用 OpenMP 进行 共享 内 存 编程 1 


+ Or >>. 


这 里 要 记 住 ，< expression > 不 能 引用 x。 
需要 注意 的 是 ， 只 有 x 的 装载 和 存储 可 以 确保 是 受 保护 的 ， 例 如 在 下 面 的 代码 中 : 


# pragma omp atomic 
X += y++，; 


其 他 线程 对 x 的 更 新 必须 等 到 该 线程 对 x 的 更 新 结束 之 后 。 但 是 对 y 的 更 新 不 受 保护 ， 因 此 程序 
的 结果 是 不 可 预测 的 。 

atomic 指令 的 思想 是 许多 处 理 器 提供 专门 的 装载 - 修改 -存储 (load - modify - store) 指 
令 。 使 用 这 种 专门 的 指令 而 不 使 用 保护 临界 区 的 通用 结构 ， 可 以 更 高 效 地 保护 临界 区 。 


5. 8. 8 ”临界 区 和 锁 

为 了 完成 对 消息 传递 程序 的 讨论 ， 我 们 需要 进一步 仔细 研究 OpenMP critical 指令 的 规范 。 
在 更 早 的 例子 中 ， 程 序 最 多 只 有 一 个 临界 区 ，critical 指令 强制 所 有 的 线程 对 该 区 域 进行 互 斥 
访问 。 在 这 个 程序 中 ， 临 界 区 的 使 用 将 更 加 复杂 。 我 们 将 在 源 代 码 中 看 到 3 个 在 critical 或 a- 
tomic 指令 后 面 的 代码 块 : 

e done_sending+ + 

es Enqueue(q_p,my_rank,mesg); 

e Dequeue(q_p,&src,&mesg); 
然而 ,我 们 不 需要 强制 对 3 个 代码 块 都 进行 互 斥 访问 ， 甚 至 不 需要 强制 对 第 2 个 和 第 3 个 代码 块 
进行 完全 的 互 斥 访问 。 例 如 ， 线 程 0 在 向 线程 1 的 消息 队列 写 消 息 的 同时 ， 线 程 1 可 以 向 线程 2 
的 消息 队列 写 消 息 。 但 是 ， 根 据 OpenMP 的 规定 ， 第 2 个 和 第 3 个 代码 块 是 被 critical 指令 保 
护 的 代码 块 。 在 OpenMP 看 来 ， 我 们 的 程序 有 两 个 不 同 的 临界 区 : 被 atomic 指令 保护 的 done_ 
sending + + 和 “复合 ”临界 区 。 在 “复合 ”临界 区 中 ， 程 序 读 取 和 发 送 消息 。 

强制 线程 间 的 互 斥 会 使 程序 的 执行 串 行 化 。OpenMP 默认 的 做 法 是 将 所 有 的 临界 区 代码 块 作 
为 复合 临界 区 的 一 部 分 ， 这 可 能 非常 不 利于 程序 的 性 能 。OpenMP 提供 了 向 critical 指令 添加 
名 字 的 选项 : 


# pragma omp critical(name)} 


采取 这 种 方式 ， 两 个 用 不 同名 字 的 critical 指令 保护 的 代码 块 就 可 以 同时 执行 。 我 们 想 为 每 一 个 
线程 的 消息 队列 的 临界 区 提供 不 同 的 名 字 ， 但 是 临界 区 的 名 字 是 在 程序 编译 过 程 中 设置 的 。 因 此 ， 
我 们 需要 在 程序 执行 的 过 程 中 设置 临界 区 的 名 字 。 但 是 按照 我 们 的 设置 ， 当 我 们 想 让 访问 不 同 队列 
的 线程 可 以 同时 访问 相同 的 代码 块 时 ， 被 命名 的 critical 指令 就 不 能 满足 我 们 的 要 求 了 。 

解决 方案 是 使 用 锁 (lock) ” 。 锁 由 一 个 数据 结构 和 定义 在 这 个 数据 结构 上 的 函数 组 成 ， 这 些 
函数 使 得 程序 员 可 以 显 式 地 强制 对 临界 区 进行 互 斥 访问 。 锁 的 使 用 可 以 大 概 用 下 面 的 伪 代 码 
描述 : 

s# Executed by one thread */ 

Initialize the lock data structure:; 


/kk Executed by multiple threads */ 

Attempt to lock or set the lock data structure; 
Critical section; 

Unlock or unset the lock data structure; 


x* Executed by one thread */ 
Destroy the lock data structure: 





仿 ”如果 你 已 经 阅读 过 Pthreads 的 章节 ， 那 么 你 已 经 了 解锁 机 制 ， 可 以 跳 到 后 面 OpenMP 锁 的 语法 部 分 。 
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锁 的 数据 结构 被 执行 临界 区 的 线程 所 共享 ， 这 些 线程 中 的 某 个 线程 〈 如 主线 程 ) 会 初始 化 锁 。 而 
当 所 有 的 线程 都 使 用 完 锁 后 ， 某 个 线程 应 当 负 责 销毁 锁 。 

在 一 个 线程 进 和 人 临界 区 前 ， 它 尝试 通过 调用 锁 函 数 来 上 锁 (set)。 如 果 没 有 其 他 的 线程 正在 
执行 临界 区 的 代码 ， 那 么 它 将 获得 锁 并 进入 临界 区 。 当 该 线程 执行 完 临界 区 的 代码 后 ， 它 调用 解 
锁 函 数 释 放 (relinquish 或 者 unset) 锁 ， 以 便 其 他 线程 可 以 获得 锁 。 

当 一 个 线程 拥有 锁 时 ， 其 他 的 线程 都 不 能 进入 该 临界 区 。 其 他 线程 尝试 通过 调用 锁 函 数 进入 
该 临界 区 时 会 被 阻塞 。 如 果 有 多 个 线程 被 锁 函数 阻 寒 ， 则 当 临 界 区 的 线程 释放 锁 时 ， 这 些 线 程 中 
的 某 个 线程 会 获得 锁 ， 而 其 他 线程 仍 被 阻塞 。 

OpenMP 有 两 种 锁 : 简单 (simple) 锁 和 义 套 (nested) 锁 。 简 单 锁 在 被 释放 前 只 能 获得 一 
次 ， 而 一 个 府 套 锁 在 被 释放 前 可 以 被 同一 个 线程 获得 多 次 。OpenMP 简单 锁 的 类 型 是 omp_1ock_ 
t， 定 义 简单 锁 的 函数 包括 : 


void omp_init_lock(omp-lock tx lock_p /¥ OUt */): 

void omp_set_lock(omp.lock._t* lock.p /x In/out x#/) 
void omp_unset_lock(omp-lock.t* Tock.p /# Iin/aut */) 
void omp-destroy.locktomp.lock.tx lock_p /x in/out #/) 


相关 的 类 型 和 郑 数 在 头 文件 omp. h 中 声明 。 第 一 个 函数 的 作用 是 初始 化 锁 ， 所 以 此 时 锁 处 于 解 
锁 状 态 ， 换 名 话说， 此 时 没有 线程 拥有 这 个 锁 。 第 二 个 函数 尝试 获得 锁 ， 如 果 成 功 ， 调 用 该 函数 
的 线程 可 以 继续 执行 ; 如 果 失 败 ， 调 用 该 函数 的 线程 将 被 阻塞 ， 直 到 锁 被 其 他 线程 释放 。 第 三 个 
函数 释放 锁 ， 以 便 其 他 线程 可 以 获得 该 锁 。 第 四 个 函数 销毁 锁 。 本 书 仅 涉 及 简单 锁 ， 如 果 想 了 解 
艇 套 锁 的 知识 ， 可 以 查看 [8 ，10] 或 者 [42] 。 


5.8.9 在 消息 传递 程序 中 使 用 锁 

在 前 面 对 critical 指令 不 足 之 处 的 讨论 中 ,我 们 看 到 ， 在 消息 传递 程序 中 ， 我 们 想 要 确保 
的 是 对 每 个 消息 队列 进行 互 斥 访问 ， 而 不 是 对 于 一 个 特定 的 代码 块 。 锁 可 以 帮助 我 们 实现 这 个 目 
的 。 将 omp_1ock_t 类 型 的 数据 成 员 包含 在 队列 结构 中 ， 可 以 通过 简单 地 调用 onp_set_1ock 
函数 来 确保 对 消息 队列 的 互 斥 访 问 。 所 以 代码 : 


# pragma omp critical 
/x 0D = msgqueues[dest] x/ 
Enqueue(q_p, my-rank, mesg); 


可 以 用 以 下 代码 代替 : 


/*# 9-p = msg-queuesldest] x*/ 
omp_-set-iock(&q-p->1ock) 
Enqueue(q-p, my-rank, mesg); 
omp-unset_lockt&q._p—>1ock): 


类 似 地 ， 代 码 : 


# pragma omp critical 
/* qg-p = Msg-queuestmy_rank] #*/ 
Dequeue(q_p, &src, &mesg); 


可 以 用 以 下 代码 代替 : 


/x q-p = msg-queues[myrank)] */ 
omp._set_lock(&q-p—>1ock) 
Dequeue(q_-p, &src, 8&mesg):; 
omp-unset_lockt&g-p—>10ock) 


现在 ， 当 一 个 线程 试图 发 送 或 者 接收 消息 时 ， 它 只 可 能 被 其 他 试图 访问 相同 消息 队列 的 线程 
阻塞 ， 因 为 每 一 个 消息 队列 拥有 不 同 的 锁 。 在 我 们 最 初 的 实现 中 ,不管 消息 的 目的 地 是 哪个 队 
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列 ， 每 次 都 只 有 一 个 线程 可 以 发 送 消息 。 
需要 注意 的 是 ， 对 锁 函 数 的 调用 也 可 以 放 在 队列 函数 Enqueue 和 Dequeue 中 。 但 是 ， 为 了 


确保 Dequeue 函数 的 性 能 ， 还 需要 将 判断 队列 大 小 的 代码 (enqueued - dequeued ) 放 到 De- 


queue 函数 中 。 如 果 不 这 样 做 ， 每 次 被 Try_receive 函数 调用 时 ,Dequeue 函数 都 会 锁 住 整个 
队列 。 为 了 保持 已 写 代码 的 结构 ， 我 们 将 对 omp_set_iock 和 omp_unset_1ocKk 的 调用 放 在 
Send 和 Try_receive 因数 中 。 

因为 我 们 已 经 将 队列 相应 的 锁 包 含 在 了 队列 的 结构 中 ， 所 以 我 们 可 以 把 对 锁 初 始 化 的 代码 添 
加 到 初始 化 空 队 列 的 函数 中 ， 而 对 锁 的 销毁 则 可 以 由 拥有 该 队列 的 线程 在 销毁 队列 前 完成 。 


5.8.10 critical 指令 、atomic 指令 、 锁 的 比较 

到 目前 为 止 ， 有 三 种 机 制 可 以 实现 对 临界 区 的 访问 ， 很 自然 地 我 们 想 知 道 在 不 同 的 情况 下 应 
当 采 取 哪 一 种 方法 。 一 般 而 言 ，atomic 指令 是 实现 互 斥 访问 最 快 的 方法 。 因 此 ， 如 果 临 界 区 由 
特定 形式 的 赋值 语句 组 成 ， 则 使 用 atomic 指令 至 少 不 会 比 使 用 其 他 方法 慢 。 然 而 ，OpenMP 规 
范 [42] 允许 atomic 指令 对 程序 中 所 有 atomic 指令 标记 的 临界 区 进行 强制 互 斥 访 问 一 一 这 是 
未 命名 的 critical 指令 的 工作 方式 。 如 果 这 种 行为 不 能 满足 要 求 〈( 例 如， 程序 中 有 多 个 不 同 的 
由 atomic 指令 保护 的 临界 区 ) 则 应 当 使 用 命名 的 critical 指令 或 者 锁 。 例 如 ， 假 设 在 程序 中 
有 一 个 线程 执行 下 面 左边 的 代码 ， 而 另外 一 个 线程 执行 右边 的 代码 : 


# pragma omp atomic # pragma omp atomic 
X 十 十; y++; 
即使 x 和 y 拥有 不 同 的 内 存 地 址 ， 但 可 能 一 个 线程 在 执行 x + + 操作 时 ， 其 他 线程 不 能 同时 执行 
y+ +。 需 要 注意 的 是 ， 这 种 行为 其 实 是 不 必要 的 。 如 果 两 条 修改 不 同 变量 的 语句 都 被 atomic 
指令 保护 ， 那 么 有 些 OpenMP 实现 会 把 这 两 条 语句 视 为 不 同 的 临界 区 ， 具 体 参见 习题 5. 10。 另 一 
方面 ， 不 管 语句 以 何 种 形式 实现 ， 修 改 同一 变量 的 不 同 语句 都 将 视 为 属于 同一 个 临界 区 。 





前 面 我 们 已 经 看 到 了 一 些 使 用 critical 指令 的 不 足 之 处 。 然 而 ， 不 论 是 未 命名 的 criti - 


cal 指令 还 是 命名 的 critical 指令 都 十 分 易于 使 用 。 此 外 ， 在 我 们 所 使 用 到 的 OpenMP 的 实现 
中 , 使 用 critical 指令 保护 临界 区 与 使 用 锁 保护 临界 区 在 性 能 上 没有 太 大 的 差别 。 所 以 ， 如 果 
我 们 在 无 法 使 用 atomic 指令 ， 却 能 够 使 用 critical 指令 时 ， 我 们 应 当 使 用 critical 指令 。 
锁 机 制 适 用 于 需要 互 斥 的 是 某 个 数据 结构 而 不 是 代码 块 的 情况 。 


5.8. 11 经 验 

在 使 用 我 们 讨论 过 的 这 些 互 斥 技术 时 应 当 谨 慎 ， 它 们 肯定 会 引起 一 些 严重 的 编程 问题 ， 下 面 
是 一 些 你 需要 知道 的 要 点 : 

(1) 对 同一 个 临界 区 不 应 当 混 合 使 用 不 同 的 互 斥 机 制 。 例 如 ， 一 个 程序 包含 下 面 的 两 个 代码 
片段 : 


# pragma omp atomic # pragma omp critical 
X += f(y); X=g(x); 

右边 的 代码 对 x 进行 修改 ， 但 是 不 满足 atomic 指令 要 求 的 形式 ， 所 以 程序 员 采 用 了 critical 
指令 。 由 于 critical 指令 和 atomic 指令 不 会 互 斥 执行 ， 所 以 程序 可 能 会 得 到 不 正确 的 结果 。 
程序 员 需 要 重 写 函 数 g8， 使 得 它 满足 atomic 指令 要 求 的 形式 ， 或 者 程序 员 需 要 用 critical 指 
令 将 这 两 个 代码 块 都 保护 起 来 。 

(2) 互 斥 执行 不 保证 公平 性 ， 也 就 是 说 可 能 某 个 线程 会 被 一 直 阻塞 以 等 待 对 某 个 临界 区 的 执 
行 。 例 如 下 面 的 代码 中 : 
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whiletl) { 


# pragma omp critical 
x = glmy_rank):; 


} 


线程 1 可 能 被 一 直 阻 塞 以 等 待 执 行 x* = 9(my_rank)， 而 其 他 的 线程 却 在 反复 执行 这 条 赋值 语句 。 
当然 ， 如 果 循 环 能 结束 ， 那 么 上 面 的 问题 就 不 会 存在 。 另 外 在 许多 实现 中 ， 线 程 按照 到 达 的 先后 
顺序 进入 临界 区 ， 在 这 种 情况 下 ， 上 面 的 问题 也 不 会 存在 。 

(3)“ 山 套 ” 互 斥 结构 可 能 会 产生 意料 不 到 的 结果 。 例 如 ， 一 个 程序 包含 了 以 下 的 两 个 代码 
片段 : 


# pragma omp critical 
y= f(x) 


double ftdouble x) | 
# pragma omp critical 
z= g(xX); /* 2 TS shared */ 


} 


这 段 代码 肯定 会 产生 死 锁 。 当 一 个 线程 试图 进入 第 二 个 临界 区 时 ， 它 将 被 永远 阻塞 。 如 果 一 个 线 
程 & 在 执行 第 一 个 临界 区 中 的 代码 ， 则 不 可 能 有 其 他 的 线程 执行 第 二 个 临界 区 中 的 代码 。 然 而 ， 
如 果 线程 u 被 阻塞 以 等 待 进入 第 二 个 临界 区 ， 那 么 它 将 永远 不 会 离开 第 一 个 临界 区 ， 换 句 话 说 ， 
它 将 被 永远 阻塞 。 

在 这 个 例子 中 ， 我 们 使 用 命名 临界 区 来 解决 上 面 的 问题 。 我 们 重 写 代 码 如 下 : 


# pragma omp critical(one) 
y = f(X); 


double fidouble x) 1 
# pragma omp critical (two) 
z= g(x); /* Z is global */ 


| 


然而 ， 还 是 有 命名 临界 区 不 能 解决 的 问题 。 例 如 ， 如 果 一 个 程序 有 两 个 命名 临界 区 (one 和 
two) 并 且 线程 坛 图 以 不 同 的 顺序 进入 临界 区 ， 那 么 死 倘 就 可 能 发 生 。 例 如 ， 假 设 线程 忆 进 人 临 
界 区 one 的 同时 线程 进入 临界 区 two ， 然 后 线程 过 试图 进 人 临界 区 two 的 同时 线程 v 试图 进入 
临界 区 one : 










进入 临界 区 one 
试图 进 和 人 临界 区 two 
阻塞 


进入 临界 区 two 
试图 进 人 临界 区 one 
阻塞 












那么 ,线程 x 和 vw 都 将 永远 被 阻塞 以 等 待 进 人 临界 区 。 由 此 可 见 ， 仅仅 使 用 命名 临界 区 不 足以 解 
决 上 面 的 问题 一 一 程序 员 必 须 确保 各 个 线程 以 相同 的 顺序 进入 临界 区 。 


5.9 缓存、 缓存 一 致 性 、 伪 共享 ° 
多 年 来 ， 处 理 器 的 执行 速度 已 经 远 远 超过 了 它们 从 主 存 中 访问 数据 的 速度 ， 所 以 如 果 处 理 器 


日 ”这 部 分 的 内 容 在 第 4 章 已 经 介绍 过 。 如 果 你 已 经 读 过 ， 那 么 可 以 跳 过 这 部 分 内 容 。 
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的 每 一 个 操作 都 要 从 主 存 中 访问 数据 ， 那 么 它们 大 多 数 时 间 都 是 在 等 待 数据 从 主 存 中 到 达 。 为 了 
解决 这 个 问题 ， 处 理 器 设计 人 员 在 处 理 器 中 加 入 了 比 主 存 更 快 的 存储 器 一 一 缓存 〈cache) 。 

缓存 的 设计 考虑 到 了 时 间 和 空间 局 部 性 : 如 果 一 个 处 理 器 在 时 间 1 访问 了 主 存 地 址 x*， 那 么 
很 有 可 能 它 会 在 与 1 相近 的 时 间 内 访问 主 存 中 靠近 x 的 地 址 。 因 此 ， 如 果 处 理 器 要 访问 主 存 地 址 
x， 那 么 一 个 包含 * 中 内 容 的 存储 块 将 被 写 人 缓存 中 或 者 从 缓存 中 读 出 ， 而 不 是 仅仅 将 x 中 的 内 容 
写 人 缓存 或 者 从 缓存 中 读 出 。 这 样 的 存储 块 叫做 缓存 行 或 者 缓存 块 。 

我 们 已 经 在 2. 3. 4 节 看 到 缓存 的 使 用 对 于 共享 内 存 有 着 巨大 的 影响 。 让 我 们 回忆 一 下 这 是 为 
什么 。 首 先 ， 考 虑 下 面 的 情况 。 假 设 共享 变量 * 的 值 为 5， 因 为 要 执行 下 面 的 代码 


my-y = Xx; 


所 以 线程 0 和 线程 1 都 将 分 别 从 内 存 中 将 * 读 入 它们 的 缓存 。 在 这 里 ，my_y 是 分 别 定义 在 两 个 线 
程 内 部 的 私有 变量 。 假 设 线程 0 执行 下 面 的 语句 : 


X 十 十 ; 
最 后 ， 假 设 线程 1 现在 要 执行 : 
my_z = X; 


my_z 是 定义 在 线程 内 部 的 另 一 个 私有 变量 。 

现在 my_z 是 多 少 ? 5 还 是 6? 现在 的 问题 是 (至少 ) 存在 3 个 x 的 副本 : 一 个 在 主 存 中 ,一 
个 在 线程 0 的 缓存 中 ， 一 个 在 线程 1 的 缓存 中 。 当 线程 0 执行 x+ + 时 ， 主 存 中 和 线程 1 的 缓存 
中 的 x 应 当 如 何 变化 呢 ? 这 就 是 第 2 章 讨 论 的 缓存 一 致 性 问题 。 我 们 看 到 大 部 分 系统 都 坚持 缓存 
能 获知 它们 所 缓存 的 数据 的 改变 。 当 线程 0 执行 x+ + 时 ,线程 1 中 x 所 在 的 缓存 块 被 标记 为 in- 
valid。 在 执行 赋值 语句 my_z = x 之前， 运行 线程 1 的 核 将 会 获知 x 的 值 已 经 过 期 了 。 因 此 运行 
线程 0 的 核 必须 更 新 x 在 内 存 中 的 副本 (现在 或 者 更 早 一 些 )， 运 行 线程 1 的 核 将 从 主 存 中 获取 
包含 更 新 过 的 x 的 内 存 块 。 详 见 第 2 章 。 

缓存 一 致 性 的 使 用 对 共享 内 存 系统 的 性 能 有 着 巨大 的 影响 。 为 了 说 明 这 点 ， 我 们 来 看 一 看 和 矩 
阵 - 向量 乘 法 的 例子 。 假 设 4 = (a;) 是 mxn 矩阵, x 是 有 个 元 素 的 向 量 , 它们 的 积 y =Ax 是 
一 个 有 m 个 元 素 的 向 量 ,， 并且 第 i 个 元 素 y, 由 4 的 第 i 行 和 x 的 内 积 得 到 : 

yi= AdoXo 十 CiXI +t + Oi -Xl 

见 图 5-5。 

所 以 ， 如 果 将 4 存储 为 二 维 数组 ，x 和 y 存储 为 一 维 数组 ， 则 可 以 使 用 下 面 的 代码 实现 串 行 
化 的 矩阵 -向量 乘法 ; 


for (i = 0; i < m; i++) { 
yb] e005 
for (jj = 0; j < hn;: j++) 
y[i] += ALi]fj]*xfj]; 








C00 C01 G0.7 一 | ， 0 
QI10 all | Qn-!l | | xo | 











| xl 








| 
Cn 一 1 | 下 二 Gi0X0 十 QiX1 十 … 十 Gin=EEa-H 





| 了 | 而 | | . | Xn—1 
| Qimo1.0 | Um—l.l | Gm—l.n—l | Vm—l 


图 5-5 和 矩阵 -向 量 乘法 
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因为 A 和 x 都 没有 改变 , 且 第 j 次 迭代 只 更 新 变量 y[ i ] ， 所 以 在 上 面 的 代码 中 外 循环 没有 循环 依 
赖 。 通 过 将 外 循环 中 的 迭代 划分 给 不 同 的 线程 ， 可 以 将 上 面 的 代码 并 行 化 : 


1 # pragma ompn parallel for num.threads(threadcount) \ 
2 default{none) privateti, j) shared(A, x, y, th. fi} 
3 for (1 = 0; i < m; i++) { 

4 y[i] = 0.0; 

5 for (j= 0; j < n; j++) 

6 yLil] += ALiJLj]*x[j]; 

7 } 


设 Tw%# 是 串 行程 序 的 运行 时 间 ，7Ty%# 是 并 行程 序 的 运行 时 间 ， 并 行程 序 的 效率 是 加 速 比 除 以 线 
程 的 数目 1: 





Sst, E<1。 表 5-4 展示 了 我 们 的 矩阵 向 量 乘法 在 不 同 数据 集 和 线程 数 下 的 运行 时 间 和 效率 。 
表 5-4 矩阵 -向 量 乘法 的 运行 时 间 (单位 : 秒 ) 和 效率 







8 x8 000 000 
时 间 | ”效率 
0. 333 



















1.000 








0. 189 


0.141 0.571 0. 119 0. 555 0. 303 


在 每 种 情况 下 ， 浮 点 数 加 法 与 乘法 操作 的 总 数 都 是 64 000 000 次 。 只 考虑 算术 运算 次 数 的 分 
析 预 测 单线 程 运 行程 序 在 三 种 输入 方式 情况 下 的 运行 时 间 是 相同 的 。 然 而 ， 这 与 我 们 看 到 的 实际 
情况 并 不 相同 。 对 于 8 000 000 x8 这 一 输入 ， 比 起 8000 x 8000 而 言 ， 系 统 需要 22% 的 多 余 时 间 。 
而 若 输入 为 8 x8 000 000， 则 需要 26% 的 多 余 时 间 。 这 两 处 的 不 同 运 行 时 间 ， 至 少 部 分 原因 是 由 
缓存 性 能 引起 的 。 

当 核 试图 修改 不 在 缓存 中 的 变量 时 ,会 发 生 写 缺失 (write-miss) ， 此 时 内 核 必 须 访问 主 存 。 
缓存 分 析 器 (Valgrind [49]) 表明 当 程 序 的 输入 是 8 000 000 x8 时 ， 比 其 他 输入 产生 更 多 的 写 缺 

区 3 失 ， 并 且 大 多 数 的 写 缺失 发 生 在 第 4 行 。 因 为 在 这 种 情况 下 ， 向 量 y 中 元 素 的 数目 非常 大 (8 000 
000 与 8 000 或 8) ， 且 每 一 个 元 素 都 必须 初始 化 ,那么 第 4 行 代码 在 输入 为 8 000 000 x8 时 执行 
速度 减 慢 就 在 情理 之 中 了 。 

当 核 试 图 读 取 不 在 缓存 中 的 变量 时 ， 会 发 生 读 缺 失 (read-miss) ， 此 时 它 也 必须 访问 主 存 。 
缓存 分 析 器 表明 在 输入 为 8 x8 000 000 时 ， 比 其 他 输入 产生 更 多 的 读 缺 失 。 读 缺失 发 生 在 程序 的 
第 6 行 , 仔细 研究 程序 (见习 题 5.12) 会 发 现 ， 这 些 不 同 的 主要 原因 是 对 变量 x 的 读 取 。 对 于 输 
人 8 x8 000 000 而 言 ，x 有 8 000 000 个 元 素 ， 而 对 于 其 他 输入 只 有 8000 个 或 者 8 个 元 素 ， 这 就 
造成 了 读 缺 失 次 数 的 不 同 。 

另外 需要 并 记 的 是 ， 存在 其 他 原因 影响 单线 程 程序 在 不 同 输入 下 的 性 能 。 例 如 ， 我 们 没有 考 
虑 虚拟 内 存 ( 见 2.2.4 节 ) 是 否 影响 程序 在 不 同 输入 下 的 执行 ， 以 及 CPU 访问 主 存 中 页 表 的 
频率 。 

我 们 最 感 兴趣 的 是 当 线 程 数目 增加 时 程序 性 能 的 变化 。 对 于 双 线 程 的 程序 ， 程 序 在 输入 为 
8 x8 000 000 时 比 在 输入 为 8000 x8000 和 8 000 000 x8 时 性 能 至 少 下 降 了 20% 。 对 于 4 个 线程 的 


0. 555 
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程序 ， 程 序 在 输入 为 8 x8 000 000 时 比 在 输入 为 8000 x 8000 和 8 000 000 x 8 时 性 能 至 少 下 降 了 
50% 。 那 么 ， 为 什么 在 输入 为 8 000 000 x8 时 ， 多 线程 程序 的 性 能 会 这 么 差 呢 ? 

同样 ， 这 个 现象 与 缓存 有 关 。 让 我 们 仔细 研究 4 个 线程 的 程序 。 在 输入 为 8 000 000 x8 时 ， 
y 有 8 000 000 个 元 素 ， 所 以 给 每 个 线程 分 配 了 2 000 000 个 元 素 ; 在 输入 为 8000 x 8000 时 ， 给 每 
个 线程 分 配 了 y 中 的 2000 个 元 素 ; 在 输入 为 8 x8 000 000 时 ， 给 每 个 线程 分 配 y 中 的 2 个 元 素 。 
在 我 们 的 系统 中 ， 一 个 缓存 块 有 64 字 节 ， 由 于 y 是 双 精 度 浮 点 型 ， 一 个 双 精 度 浮 点 变量 占 8 字 
节 ， 所 以 一 个 缓存 块 可 以 储存 8 个 双 精 度 浮 点 变量 。 

缓存 一 致 性 是 在 “缓存 行 级 别 ” 上 执行 的 ， 换 名 话说 ， 只 要 缓存 行 中 的 某 个 变量 改变 了 ， 且 
其 他 核 的 缓存 也 存储 了 该 变量 ， 那 么 将 整个 缓存 行 标记 为 不 合法 一 一 不 只 是 被 改变 的 变量 。 我 们 
使 用 的 系统 有 2 个 双核 的 处 理 器 ， 每 个 处 理 器 都 有 自己 的 缓存 。 假 设 此 时 线程 0 和 线程 1 分 配给 
了 其 中 的 一 个 处 理 器 ， 线 程 2 和 线程 3 分 配给 了 另外 一 个 处 理 器 。 还 假设 在 输入 为 8 x8 000 000 
时 ，y 的 所 有 元 素 都 存储 在 一 个 缓存 行 中 ， 那 么 每 次 对 y 中 元 素 的 写 都 将 导致 其 他 处 理 器 中 的 组 
存 行 失效 。 例 如 ， 每 一 次 线程 0 在 下 面 的 语句 中 更 新 y[0] 


y[Li] += A[il[j]*x[j]; 


如 果 线 程 2 或 者 线程 3 正在 执行 程序 ， 那 么 它们 必须 重新 载 人 y 的 值 。 每 一 个 线程 都 要 更 新 它 自 
己 的 元 素 8 000 000 次 。 我 们 看 到 ， 由 于 这 条 赋值 语句 ， 所 有 的 线程 都 必须 重新 载 人 y 很 多 次 。 
只 要 有 一 个 线程 访问 y 中 的 任意 一 个 元 素 ， 上 述 情况 就 会 发 生 一 一 比如 只 有 线程 0 访问 y[0]。 

每 个 线程 要 更 新 分 配 的 y 中 的 元 素 16 000 000 次 ， 并 且 其 中 的 大 多 数 更 新 都 会 迫使 线程 访问 
主 存 ， 这 种 情况 称 为 伪 共 享 。 假 设 有 着 不 同 缓存 的 两 个 线程 访问 同一 个 缓存 行 中 的 不 同 变量 ， 还 
假设 至 少 有 一 个 线程 更 新 了 变量 的 值 。 尽 管 没 有 线程 对 共享 变量 进行 了 更 新 ， 但 缓存 控制 器 会 将 
整个 缓存 行 失效 ， 从 而 迫使 其 他 线程 从 主 存 中 获取 变量 的 值 。 这 些 线程 之 间 没 有 共 掌 任何 变量 
〈 只 是 共享 了 同一 个 缓存 行 ) ， 但 是 它们 访问 主 存 的 行为 看 起 来 好 像 它 们 共享 了 一 个 变量 ， 所 以 这 
种 情况 称 为 伪 共 享 。 

为 什么 在 其 他 输入 下 ， 伪 共享 不 会 带 来 问题 呢 ? 让 我 们 看 看 在 输入 为 8000 x 8000 时 程序 运 
行 的 情况 。 假 定 将 线程 2 分 配给 了 其 中 的 一 个 处 理 器 ， 而 线程 3 分 配给 了 另外 一 个 处 理 器 (我 们 
不 能 准确 地 知道 线程 分 配给 了 哪个 处 理 器 , 但 是 结果 表明 ( 见 练习 5.13) 这 不 会 对 结果 产生 影 
响 )。 线 程 2 负责 计算 





y[40003，y[4001]，，，，， y[5999] 
而 线程 3 负责 计算 
y[60001, y[6001], ,. .，, y[7999] 


如 果 一 个 缓存 块 包含 8 个 连续 的 double 型 变量 ， 那 么 伪 共享 只 可 能 发 生 在 元 素 的 连接 处 。 例 如 ， 
假设 一 个 缓存 块 包含 
y[5996], y[5997], y[5998], y[5999], y[6000], yL6001], yL6002], yt6003] 
那么 可 以 预见 这 个 缓存 块 可 能 发 生 伪 共 享 。 然 而， 线程 2 在 for; 循环 的 选 代 结束 时 访问 
y[5996], y[5997], yL5998], y[L5999] 
而 线程 3 在 和 迭代 开始 时 访问 
y[60001，y[6001]，y[6002]，y[6003] 
所 以 很 有 可 能 在 线程 2 访问 ， 比 如 说 ，y[5996] 时 ， 线 程 3 早已 经 完成 了 对 


yY[6000]，y[6001]，y[6002]，y[6003] 
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的 计算 。 同 样 ， 当 线程 3 访问 ， 比 如 说 ，y[6003 ] 时 ,线程 2 很 可 能 将 不 会 访问 
y[60001， y[6001]. y[6002], yt6003] 


因此 在 输入 为 8000 x 8000 时 ，y 元 素 的 伪 共享 可 能 不 会 带 来 较 严 重 的 问题 。 同 样 道理 ， 在 输 
入 为 8 000 000 x8 时 ，y 的 伪 共 享 也 可 能 不 会 造成 太 大 的 问题 。 需 要 注意 的 是 ， 不 需要 担心 对 A 
和 x 的 伪 共 享 ， 因 为 它们 的 值 从 来 没有 被 矩阵 - 向量 乘法 程序 更 新 过 。 

上 面 的 内 容 引 出 了 一 个 问题 : 我们 应 当 怎样 避免 矩阵 - 向 量 乘法 程序 的 伪 共 享 呢 ? 一 种 可 行 
的 解决 方案 是 用 伪 变 量 填充 向 量 y， 以 确保 其 中 任意 一 个 线程 的 更 新 不 会 影响 其 他 线程 的 缓存 
行 。 另 外 一 个 可 行 的 解决 方案 是 每 个 线程 在 选 代 期 间 使 用 私有 存储 ， 然 后 在 计算 完成 后 更 新 共享 
存储 〈 见 习题 5. 15 ) 。 


5. 10 ”线程 安全 性 2 

本 节 将 探讨 在 共享 内 存 编程 中 另 一 个 可 能 发 生 的 问题 : 线程 安全 性 。 当 一 个 代码 块 被 多 个 线 
程 同 时 执行 时 不 会 产生 错误 ， 那 么 这 个 代码 块 是 线程 安全 的 。 

为 了 举例 说 明 ， 假 设 要 使 用 多 个 线程 对 一 个 文件 进行 “分 词 ”。 假 定 这 个 文件 由 普通 的 英文 
文本 组 成 ， 每 个 单词 是 一 个 连续 的 字母 序列 且 用 空白 符 (空格 、 制 表 符 ,或 者 换行 符 ) 与 其 他 的 
文本 隔 开 。 一 个 简单 的 方法 是 按 行 对 输入 文件 进行 划分 ， 然 后 以 轮转 的 方式 将 文本 行 分 配给 各 个 
线程 : 第 1 行 分 配给 线程 0， 第 2 行 分 配给 线程 1，…， 第 上 行 分 配给 线程 上 -1， 第 :+1 行 分 配给 
线程 0， 以 此 类 推 。 

将 文本 以 字符 捉 数组 的 形式 存储 ， 每 行 一 个 字符 串 。 然 后 使 用 parallel 指令 和 schedule 
(static,1) 子 句 将 行 分 配给 各 个 线程 。 

对 行进 行 分 词 的 一 种 方式 是 使 用 String. h 头 文件 中 的 strtok 函数 。 该 函数 的 函数 原型 
如 下 : 


charx strtokt 
Char* string /x* In/Oout */, 
const char* separators /*# in */); 


它 在 使 用 上 有 些 不 同 寻常 之 处 : 当 这 个 晴 数 第 一 次 被 调用 时 ，string 参数 是 要 被 分 析 的 文本 ， 
在 我 们 的 例子 中 它 是 输入 的 行 。 在 接 下 来 的 调用 中 ， 它 应 该 是 NULL， 因 为 在 第 一 次 调用 时 ， 
strtok 函数 缓存 了 指向 string 的 指针 ， 在 接 下 来 的 调用 中 ， 它 从 缓存 的 副本 中 返回 连续 的 词 


区 9 组 。 分 离 词 组 的 字母 应 当 在 separators 中 传递 ， 所 以 传递 "\t\n "作为 separators 的 参数 。 


程序 56 ”第 一 个 多 线程 分 词 器 











void Tokenizel 


] 

2 char* lines[] /A* TAOHt x*/, 

3 int line_count /x¥ in */ 

4 int thread count /* in */) { 

5 int my-rank, i, j; 

6 char *my_token; 

7 

8 # pragma omp parallel numthreads(thread-count) \ 
9 default(none) private(my_rank, i, j, my.token) \ 
10 shared(tlines, 1ine_count) 

11 { 

12 my-rank = omp-get.thread_num(); 

13 # pragma omp for schedule(static, 1) 

14 for (i = 0; i < linecount: i++) { 





日 ”这 部 分 内 容 在 第 4 章 已 经 介绍 过 。 如 果 你 已 经 读 过 ， 可 以 跳 过 这 部 分 内 容 。 


第 5 章 用 OpenMP 进行 共享 内 存 编程 "1 


15 printf(" Thread %d > line %d = 2%S"，my-rank， ji 
Tines[i]); 

16 j= 0: 

17 my-token = strtok(lines[i], " \t\n"):; 

18 while ( my-token != NULL ) 1 

[9 printf({"Thread %d > token %d = %SNn"，my-rank，j， 

my-token); 

20 my-token = strtok(NULL. " \t\n"); 

21 j++ ; 

22 } 

23 } /A* for 7 */ 

24 }】 /* omp Parallel */ 

25 

26 } /* Tokenize #*/ 





基于 这 些 假定 ， 我 们 可 以 按照 程序 5-6 来 实现 Tokenize 函数 。 主 函数 已 经 初始 化 了 1 ines 
数组 ， 所 以 在 1ines 中 包含 了 输入 文本 ， 而 1ine_count 是 存储 在 1ines 中 字符 串 的 数目 。 尽 
管 从 程序 的 功能 来 看 ， 只 需要 1ines 作为 输入 参数 ,但 是 strtok 函数 对 输入 参数 1ines 进行 
了 修改 。 因 此 ， 当 Tokenize 函数 返回 时 ，1ines 已 经 被 修改 过 了 。 当 以 单线 程 的 形式 运行 程 
序 时 ， 程 序 能 正确 地 对 输入 流 进行 分 词 。 程 序 的 输入 为 


Pease porridge hot. 
Pease porridge cold. 
Pease porridge in the pot 
Nine days old. 


使 用 双 线 程 第 一 次 运行 程序 ， 得 到 了 正确 的 结果 。 然 而 ， 再 次 运行 程序 时 ， 得 到 下 面 的 输出 : 


Thread 0 > line 0 = Pease porridge hot， 
Thread 1 > line 1 = Pease porridge cold. 
Thread 0 > token 0 = Pease 

Thread 1 > token 0 = Pease 

Thread 0 > token 1 = porridge 

Thread 1 > token 1 = cold. 

Thread 0 > line 2 = Pease porridge in the pot 
Thread 1 > line 3 = Nine days old. 
Thread 0 > token 0 = Pease 

Thread 1 > token 0 = Nine 

Thread 0 > token 1 = days 

Thread 1 > token 1 = old. 


为 什么 会 出 现 这 种 错误 ?回想 一 下 ，strtok 函数 通过 声明 一 个 static 存储 类 型 的 变量 来 
缓存 输入 行 ， 这 将 导致 存储 在 这 个 变量 中 的 值 会 从 上 一 个 调用 保留 到 下 一 个 调用 。 不 幸 的 是 ， 这 
个 缓存 的 字符 串 变量 是 共享 的 ， 而 不 是 私有 的 ， 因 此 线程 1 用 第 2 行 作 为 输入 参数 来 对 strtok 
进行 调用 ， 显 然 覆盖 了 线程 0 用 第 1 行 作为 输入 参数 调用 范 数 时 变量 中 的 值 。 更 糟糕 的 是 ， 线 程 
0 发 现 了 一 个 单词 (“days”) ， 而 这 个 单词 本 应 该 是 线程 1 的 输出 。 

因此 strtok 函数 不 是 线程 安全 的 ， 如 果 多 个 线程 同时 调用 它 ， 它 可 能 产生 不 正确 的 输出 。 
遗憾 的 是 ，C 语言 库 中 的 函数 普遍 不 是 线程 安全 的 。 例 如 头 文件 std1ib. h 中 的 随机 数 产生 器 
random 和 头 文件 time. h 中 的 时 间 转 换 函 数 1ocaltime 都 不 是 线程 安全 的 。 在 某 些 情况 下 ，C 
标准 提供 了 可 选 的 、 线 程 安全 的 函数 版 本 。 实 际 上 ，strtok 函数 有 一 个 线程 安全 的 版 本 : 


strtok: 
Char* Strtok_r( 
char* string A* in/out */, 
const char*x separators /* jn 水 / ， 
Char** Saveptr-p /x in/out */); 


“_r” 表 明 函 数 是 可 重 人 的 ， 在 某 些 情况 下 可 重 入 与 线程 安全 的 意思 是 一 样 的 。 前 两 个 参数 
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图 





和 strtok 函数 中 的 参数 的 作用 相同 ，saveptr_p 参数 被 strtok_r 函数 用 来 跟踪 函数 正在 处 
理 字符 串 的 哪个 位 置 ， 它 相当 于 一 个 在 strtok 函数 中 被 缓存 的 指针 。 可 以 通过 用 strtok_r 图 
数 代替 strtok 函数 来 修正 最 初 的 Tokenize 函数 。 我 们 仅 需要 声明 一 个 char * 变量 作为 第 3 
个 参数 传递 给 函数 ， 并 分 别 用 下 面 的 代码 替换 第 17 行 和 第 20 行 的 调用 

my-token = Strtok-r(lines[i]，” \t\n", &saveptr); 


my token = Strtokr(NULL, " AtNn"，&Saveptrli 


不 正确 的 程序 可 能 会 产生 正确 的 结果 

我 们 最 初版 本 的 分 词 程序 有 一 个 不 易 觉 察 的 程序 错误 : 第 一 次 使 用 2 个 线程 运行 程序 时 ， 程 
序 给 出 了 正确 的 输出 结果 ， 第 2 次 运行 时 ， 程 序 才 给 出 了 错误 的 结果 。 不 幸 的 是 ， 这 种 错误 在 并 
行程 序 中 经 常 发 生 ， 而 在 共享 内 存 程序 中 这 种 错误 更 加 普遍 。 就 像 我 们 在 本 章 开头 所 注意 到 的 那 
样 ， 大 部 分 情况 下 ， 线 程 之 间 是 相互 独立 运行 的 ， 语 句 执行 序列 具有 不 确定 性 。 例 如 ， 我 们 不 能 
假定 线程 1 会 首先 调用 st rtok 函数 。 如 果 线 程 1 对 strtok 的 调用 发 生 在 线程 0 已 经 对 第 1 行 
分 词 完 之 后 ,那么 对 第 1 行进 行 分 词 的 结果 是 正确 的 。 然 而 ， 如 果 线 程 1 对 strtok 函数 的 调用 
发 生 在 线程 0 对 第 1 行 分 词 完成 之 前 ， 那 么 很 有 可 能 线程 0 不 能 分 析出 第 1 行 中 所 有 的 单词 。 所 
以 在 开发 共享 内 存 程序 时 ， 不 要 因为 程序 给 出 了 正确 的 结果 就 认定 程序 是 正确 的 。 我 们 要 小 心 对 
待 线程 之 间 的 竞争 条 件 。 


5. 11 小 结 


OpenMP 是 一 个 共享 内 存 系 统 上 的 编程 标准 ， 它 使 用 专门 的 函数 和 预 处 理 器 指令 pragmas ， 
所 以 与 Pthreads 和 MPI 不 同 ，OpenMP 需要 编译 器 的 支持 。OpenMP 最 重要 的 特色 之 一 就 是 它 的 设 
计 使 程序 员 可 以 逐步 并 行 化 已 有 的 串 行程 序 ， 而 不 是 从 零 开 始 编写 并 行程 序 。 

OpenMP 程序 使 用 多 线程 而 不 是 多 进程 。 线 程 比 进程 更 加 轻 量 级 ， 除 了 拥有 自己 的 栈 和 程序 
计数 器 外 ， 同 一 个 进程 的 线程 可 以 共享 该 进程 几乎 所 有 的 资源 。 

为 了 使 用 OpenMP 中 的 函数 和 宏 ， 需 要 将 omp. h 头 文件 包含 在 OpenMP 程序 中 。 有 几 个 
OpenMP 指令 可 以 开启 多 线程 ， 最 常用 的 是 parallel 指令 ; 


# pragma omp parallel 
structured block 


这 个 指令 告诉 运行 时 系统 并 行 执行 下 面 的 结构 化 块 ， 即 派生 (fork) 或 者 启动 多 个 线程 来 执行 该 
结构 化 块 。 结 构 化 代码 块 是 只 有 一 个 人 口 和 一 个 出 口 的 代码 块 ， 尽 管 结 构 化 代码 块 允许 调用 C 库 
函数 exit。 被 启动 的 线程 的 数目 依赖 于 系统 ， 但 是 大 多 数 系统 会 为 每 一 个 内 核 开启 一 个 线程 。 
执行 block of code 的 线程 的 集合 叫做 线程 组 。 组 中 有 一 个 线程 在 paral1el 指令 之 前 执行 ， 
这 个 线程 叫 主 线程 ， 其 余 被 paral1el 指令 开启 的 线程 叫做 从 线程 。 当 所 有 的 线程 都 结束 后 ， 从 
线程 被 终止 或 者 合并 (join) ， 而 主线 程 继 续 执行 结构 化 代码 块 之 后 的 代码 。 

许多 OpenMP 指令 可 以 被 子 甸 (clauses) 修改 。 使 用 最 频繁 的 是 num_threads 子 句 ， 当 使 
用 OpenMP 指令 启动 线程 组 时 ， 可 以 通过 修改 num_threads 子 句 来 启动 需要 数目 的 线程 。 

当 OpenMP 启动 了 一 组 线程 后 ， 给 每 一 个 线程 分 配 一 个 线程 编号 (rank) ， 编 号 的 范围 是 0， 
1，…，thread_count -1。 调 用 OpenMP 库 函 数 omp_get_thread_num 返回 调用 该 函数 的 线 
程 编 号 。 函 数 omp_get_threads 返回 当前 线程 组 中 线程 的 数目 。 

开发 共享 内 存 程序 时 的 一 个 主要 问题 是 可 能 存在 竞争 条 件 。 竞 争 条 件 发 生 在 多 个 线程 都 试图 
访问 一 个 共享 资源 ， 且 至 少 有 一 个 访问 是 更 新 的 情况 下 。 这 些 访 问 可 能 会 产生 错误 。 每 次 只 能 被 
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一 个 线程 更 新 的 共享 变量 的 代码 叫做 临界 区 。 因 此 ， 如 果 多 个 线程 试图 更 新 一 个 共享 变量 ， 程 序 
就 会 产生 竞争 条 件 ， 更 新 该 变量 的 代码 就 成 为 临界 区 。OpenMP 提供 了 多 种 机 制 实现 对 临界 区 的 
互 斥 访问 。 我 们 学 习 了 其 中 的 的 四 种 : 

1) Critical 指令 确保 一 次 只 有 一 个 线程 执行 结构 化 代码 块 。 如 果 多 个 线程 试图 执行 临界 
区 中 的 代码 ， 除 了 其 中 的 某 个 线程 外 ， 其 他 所 有 的 线程 都 将 在 临界 区 前 被 阻塞 。 当 该 线程 离开 临 
界 区 后 ， 其 他 线程 才 会 获得 进入 临界 区 的 机 会 。 

2) 程序 中 可 以 使 用 命名 的 critical 指令 ， 和 名 字 不 同 的 临界 区 能 被 同时 执行 。 多 个 线程 在 
处 理 多 个 同名 临界 区 时 会 按照 处 理 未 命名 临界 区 的 方式 处 理 ， 但 是 多 个 线程 可 以 同时 进入 有 着 不 
同名 字 的 临界 区 。 

3) atomic 指令 只 能 用 在 形式 为 X《op> = 《expression>、x 十 十 .二 十 X、X 一 一 ,或 者 
一 一 xX 的 临界 区 中 。 这 个 指令 可 以 利用 特殊 的 硬件 指令 来 实现 ， 所 以 它 比 普通 的 临界 区 执行 速 
度 快 。 

4) 简单 锁 是 最 通用 的 互 斥 方式 ， 它 使 用 函数 调用 实现 对 临界 区 的 互 斥 访问 : 





omp-set.lock(&lock) 

critical section 

Oomp-unset_-iock(&locky: 
当 多 个 线程 调用 omp_set_1ock 时 ， 只 有 一 个 线程 可 以 进入 临界 区 ， 其 他 线程 将 被 阻塞 。 直 到 
第 一 个 线程 调用 omp_unset_1ock 后 ， 其 他 线程 才 可 能 获得 机 会 进入 临界 区 。 

所 有 的 互 斥 机 制 都 会 导致 死 锁 这 样 的 严重 问题 ， 所 以 对 它们 的 使 用 需要 十 分 小 心 。 

for 指令 可 以 将 for 循环 中 的 和 欠 代 在 线程 间 进 行 划 分 。 这 个 指令 不 是 开启 一 组 线程 ， 而 是 将 
for 循环 中 的 迭代 划分 给 已 经 存在 的 线程 组 中 的 线程 。 如 果 在 划分 的 同时 想 要 开启 一 组 线程 ， 则 
可 以 使 用 parallel for 指令 。 对 于 能 够 并 行 化 的 for 循环 的 形式 有 一 些 限 制 : 最 基本 的 是 在 循 
环 开 始 执行 前 ， 运 行 时 系统 必须 能 够 确定 循环 体 迭 代 的 次 数 。 详 见 程序 5-3 。 

然而 上 面 的 限制 还 不 足以 确保 for 循环 满足 规定 的 形式 ， 它 还 必须 没有 任何 形式 的 循环 依 
赖 。 循 环 依赖 发 生 在 一 个 内 存 位 置 在 一 次 迭代 中 被 读 或 写 后 ， 又 在 另 一 次 迭代 中 被 写 。OpenMP 
不 会 探测 循环 依赖 ， 发 现 和 消除 循环 依赖 的 工作 由 程序 员 负责 。 然 而 ， 有 时 循环 依赖 不 能 够 被 消 
除 ， 此 时 该 循环 不 能 被 并 行 化 。 

在 缺 省 情况 下 ， 绝 大 多 数 系统 在 并 行 化 的 for 循环 中 对 迭代 使 用 块 划 分 。 如 果 循 环 总 共有 nm 
次 迭代 ， 那 么 一 般 将 最 初 的 n/thread_count 次 迭代 分 配给 线程 0， 接 下 来 的 n/thread_count 
次 欠 代 分 配给 线程 1， 以 此 类 推 。 然 而 OpenMP 提供 了 许多 调度 选项 。 调 度 子 句 有 着 下 面 的 形式 ; 


schedule(<type> [,《chunksize>]) 


type 可 以 是 static、dynamic、guided 、auto 或 者 runtime。 在 static 调 度 中 ， 迭代 在 循 
环 开始 执行 前 分 配给 线程 。 在 dynamic 和 guided 调度 中 ， 和 迭代 在 执行 过 程 中 分 配给 线程 。 当 
线程 完成 一 个 迭代 块 〈 一 块 连续 的 迭代 ) 后 ， 它 请 求 男 外 一 个 迭代 块 。 如 果 采 用 auto 调度 , 调 
度 策略 由 编译 器 或 者 运行 时 系统 决定 。 如 果 采 用 runtime 调度 ,那么 调度 策略 将 在 运行 时 通过 检 
查 环 境 变量 0MP_SCHEDULE 的 值 来 决定 。 

只 有 static、dynamic 和 guided 调度 有 chunksize。 在 static 调度 中 ，chunksize 
大 小 的 迭代 块 以 轮转 的 方式 分 配给 线程 。 在 dynamic 调度 中 ， 每 个 线程 分 配 chunksize 个 迭 
代 ， 当 某 个 线程 完成 它 的 迭代 块 后 ， 它 会 请 求 男 一 个 迭代 块 。 在 9uided 调度 中 ， 和 迭代 块 的 大 小 
随 着 迭代 的 进行 而 减 小 。 

在 OpenMP 中 ， 变 量 的 作用 域 是 可 以 访问 该 变量 的 线程 的 集合 。 通 常 在 OpenMP 指令 前 定义 
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的 变量 在 内 部 构造 中 有 共享 作用 域 ， 也 就 是 说 ， 所 有 的 线程 都 能 访问 该 变量 。 上 述 情况 不 适用 于 
定义 在 for 循环 或 者 para11e1 for 构造 中 的 变量 ， 它 们 是 私有 的 ， 也 就 是 说 ， 每 个 线程 都 有 该 
变量 的 副本 。 定 义 在 OpenMP 构造 中 的 变量 有 私有 作用 域 ， 因 为 它们 分 配给 在 正在 执行 的 线程 的 
栈 中 。 

作为 一 个 经 验 法 则 ， 显 式 地 赋予 变量 作用 域 是 个 很 好 的 主意 。 这 可 以 通过 使 用 作用 域 子 句 


default(none) 


修改 parallel 或 者 parallel for 指令 来 实现 。 这 条 子 句 告诉 系统 每 一 个 在 OpenMP 构造 中 使 
用 的 变量 的 作用 域 必 须 被 显 式 定义 。 在 大 多 数 情况 下 ， 变 量 作用 域 的 定义 可 以 通过 Private 或 
者 shared 子 句 实现 。 

我 们 遇 到 的 唯一 例外 是 妇 约 变量 。 归 约 操作 符 是 一 个 二 元 操作 符 〈 例 如 ， 加 或 者 乘 ) ， 而 一 
次 归 约 计算 对 一 个 操作 数 序列 重复 使 用 相同 的 归 约 操作 符 ， 从 而 得 到 一 个 唯一 的 结果 。 此 外 ， 所 
有 操作 的 中 间 结 果 应 该 存储 在 同一 个 变量 一 一 归 约 变量 中 。 例 如 ,假设 4 是 有 个 元 素 的 数组 ， 
那么 下 面 的 代码 

int sum = 0; 

for (i = 0; i < n; i++) 

Sum += AL[i]j; 

是 一 个 归 约 操作 ， 归 约 操作 符 是 加 法 ， 归 约 变量 是 sum。 如 果 我 们 试图 并 行 化 这 个 循环 ， 归 约 变 
量 应 该 同时 具有 私有 变量 和 共享 变量 的 性 质 。 开 始 ， 我 们 希望 每 个 线程 将 数组 元 素 加 到 它 私有 的 
sum 中 ， 但 是 在 线程 结束 时 ， 我 们 希望 私有 的 sum 结合 到 一 个 单独 的 、 共 享 的 sum 中 。 因 此 
OpenMP 提供 了 归 约 子 句 来 识别 归 约 变量 和 操作 符 。 

barrier 指令 可 以 阻塞 同一 组 中 的 线程 直到 所 有 的 线程 都 到 达 该 指令 。 我 们 已 经 看 到 par- 
allel、parallel for 和 for 指令 在 结构 化 代码 块 的 末尾 都 有 隐 式 的 路 障 。 

现代 的 微 处 理 器 架构 使 用 缓存 以 减少 主 存 访问 时 间 ， 所 以 典型 的 体系 结构 都 有 专门 的 硬件 确 
保 在 不 同 处 理 器 芯片 上 的 缓存 是 一 致 的 。 因 为 缓存 一 致 性 的 基本 单位 ， 缓 存 行 或 缓存 块 ， 一 般 比 
一 个 主 存 字 大 ， 所 以 可 能 产生 一 些 副 作用 : 两 个 线程 可 能 访问 内 存 中 的 不 同位 置 ， 但 是 当 这 两 个 
位 置 属于 同一 个 缓存 行 时 ， 缓 存 一 致 性 硬件 所 表现 出 来 的 处 理 方 式 就 好 像 这 两 个 线程 访问 的 是 内 
存 中 的 同一 个 位 置 一 一 如 果 其 中 一 个 线程 更 新 了 它 所 访问 的 主 存 地 址 的 值 ， 那 么 另外 一 个 变量 试 
图 读 取 它 要 访问 的 主 存 地 址 时 ， 它 不 得 不 从 主 存 获取 该 值 。 也 就 是 说 ， 硬 件 强制 该 线程 表现 得 好 
像 它 共 享 了 变量 ， 因 此 这 种 情况 称 为 伪 共 享 ， 这 会 大 大 降低 共享 内 存 程序 的 性 能 。 

某 些 C 函数 通过 声明 static 变量 ， 在 不 同调 用 之 间 缓 存 数 据 。 当 多 个 线程 调用 该 函数 时 ， 
这 可 能 导致 错误 。 因 为 静态 存储 在 多 个 线程 间 共 享 ， 一 个 线程 可 以 写 覆盖 另外 一 个 线程 的 数据 。 
这 样 的 函数 不 是 线程 安全 的 。 不 幸 的 是 ， 在 C 函数 库 中 有 一 些 这 样 的 函数 ， 然 而 有 时 非 线 程 安全 
的 函数 在 库 中 可 以 找到 其 线程 安全 的 版 本 。 

在 我 们 的 程序 中 ， 我 们 看 到 了 一 个 很 不 容易 觉察 的 问题 : 当 我 们 固定 程序 的 输入 ， 并 用 多 个 
线程 运行 程序 时 ， 尽 管 程序 有 错 ， 但 它 有 时 还 是 会 给 出 正确 的 结果 。 程 序 在 测试 期 间 给 出 正确 的 
结果 并 不 能 保证 程序 是 正确 的 ， 需 要 我 们 自己 去 发 现 可 能 的 竞争 条 件 。 


5. 12 习题 

5. 1 如 果 已 经 定义 了 宏 _0PENMP， 它 是 一 个 int 类 型 的 十 进 制 数 。 编 写 一 个 程序 打印 它 的 值 。 这 个 值 的 意 
义 是 什么 ? 

5.2 从 本 书 的 网 站 上 下 载 omp_trap_1. c， 并 且 删 除 critical 指令 。 用 越 来 越 多 的 线程 和 越 来 越 大 的 nm 
来 编译 和 运行 程序 。 当 程序 第 一 次 出 现 错误 时 ， 线 程 和 梯形 的 数目 分 别 是 多 少 ? 


5.3 


5.4 


5.5 


5.6 


5.7 


5.8 
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按照 下 面 的 要 求 修改 omp_trap_1. < 
a. 它 使 用 代码 块 
b. 通过 使 用 OpenMP 函数 omp_get_wtime() 对 parallel 代码 块 计时 。 语 法 是 


double omp.get_wtimetvoid) 


它 返回 从 过 去 的 某 个 时 间 开 始 , 已 经 过 去 多 少 秒 。 计 时 的 细节 请 见 2. 6.4 节 。 另 外 ， 需 要 注意 的 是 
OpenMP 有 barrier 指令 : 


# pragma omp barrier 


现在 找 出 一 个 至 少 有 两 个 核 的 系统 ， 统 计 程 序 在 如 下 情况 下 的 运行 时 间 ， 
c. 一 个 线程 和 一 个 值 较 大 的 n 
d. 两 个 线程 和 同样 大 小 的 n 
分 别 会 产生 什么 样 的 结果 ? 从 本 书 的 网 站 上 下 载 omp_trap_2. c。 该 程序 的 性 能 与 omp_trap_1.c 的 
性 能 相 比 如 何 ? 解释 你 的 答案 。 
OpenMP 为 归 约 变量 创建 私有 变量 ， 这 些 私 有 变量 的 值 按照 归 约 操作 符 的 类 型 初始 化 。 例 如 ， 如 果 归 
约 操 作 符 是 加 法 ， 那 么 私有 变量 初始 化 为 0; 如 果 归 约 操作 符 是 乘法 ， 那 么 私有 变量 初始 化 为 1。 当 操 
作 符 分 别 为 && .11.& .1 时， 私有 变量 初始 化 为 什么 ? 
假定 在 Bleeblon 计算 机 上 ， 浮 点 型 变量 能 够 存储 小 数 点 后 3 位 数字 ， 它 的 浮 点 寄存 器 可 以 存储 小 数 点 
后 4 位 ， 并 且 在 任意 的 浮 点 操作 后 ， 结 果 在 存储 前 被 四 含 五 人 为 小 数 点 后 3 位 。 现 在 假设 一 个 C 程序 
声明 了 一 个 数组 : 
float a[] = {4.0, 3.0, 3.0、1000.0}: 


a. 如果 在 Bleeblon 计算 机 上 运行 下 面 的 代码 块 ， 输 出 会 是 什么 ? 


int 1; 
float sum = 0.0; 
for (i = 0; i < 4; i++) 
sum += a[i]: 
printf("sum = %4.1f\n", Sum); 


b. 考虑 如 下 的 代码 
int 1; 
float sum = 0.0; 
# pragma omp parallel for numthreads(2) \ 
reduction(+:sum) 
for (i = 0; i < 4; j++r) 
sum += a[i] 
printf("sum = %4.1f\n"”, sum); 
假设 运行 时 系统 将 迭代 i =0 ，1 分 配给 线程 0, 将 迭代 i =2，3 分 配给 线程 1， 那么 在 Bleeblon 计 
算 机 上 ， 该 程序 的 输出 是 什么 ? 
编写 一 个 OpenMP 程序 ， 确 定 并 行 for 循环 的 默认 调度 方式 。 程 序 的 输入 应 该 是 迭代 的 次 数 ， 而 程序 
的 输出 是 循环 中 的 每 次 迭代 被 哪 一 个 线程 执行 。 例 如 ,现在 有 两 个 线程 和 四 次 迭代 ， 那 么 输出 可 
能 是 : 
Thread 0: Iterations 0 一 1 
Thread 1: Iterations 2 一 3 
我 们 第 一 次 试图 并 行 化 站 值 估计 程序 其 实 是 不 正确 的 。 实 际 上 ， 我 们 以 程序 在 单线 程 条 件 下 运行 的 结 
果 作 为 依据 ,证 明了 程序 在 双 线 程 下 运行 时 给 出 了 错误 的 结果 。 请 解释 我 们 为 什么 “信任 ”程序 在 单 
线程 下 运行 所 得 到 的 结果 。 
考虑 下 面 的 循环 
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alLol = 0， 
for (i = 1: i < n; jt+) 

a[il = a[li~l1] + i; 
在 这 个 循环 中 显然 有 循环 依赖 ， 因 为 在 计算 a[ i] 前 必须 先 算 a[ i -1] 的 值 。 请 你 找到 一 种 方法 消 
除 循环 依赖 ， 并 且 并 行 化 这 个 循环 。 
使 用 parallel for 指令 来 修改 梯形 积分 法 程序 (omp_trap_3.c), 使 之 可 以 使 用 Schedule 
(runtime) 子 句 来 修改 parallel for 指令 。 给 环境 变量 0MP_SCHEDULE 赋予 不 同 的 值 ， 然 后 运行 
该 程序 ， 并 确定 每 次 迭代 由 哪个 线程 执行 。 上 面 的 工作 可 以 通过 声明 一 个 有 于 个 int 类 型 变量 的 数组 
iterations， 并 在 Trap 函数 中 将 循环 第 i 次 迭代 对 函数 omp_get_thread_num( ) 调 用 的 返回 结果 
赋 给 iterations[jj] 得 以 实现 。 你 的 系统 默认 的 循环 分 配方 式 是 什么 ?” guided 调度 又 是 怎么 被 确 
定 的 ? 
被 未 命名 的 critical 指令 修改 的 结构 化 代码 块 构成 了 一 个 单独 的 临界 区 。 那 么 ， 当 有 多 条 atomic 
指令 ， 这 些 指令 修改 的 是 不 同 的 变量 时 ， 它 们 是 不 是 都 被 视 为 各 自 独立 的 临界 区 ? 
可 以 编写 一 个 小 程序 来 回答 上 面 的 问题 。 基 本 思想 是 让 所 有 的 线程 同时 执行 类 似 下 面 的 代码 : 

int i1i; 

double my-sum = 0.0; 

for (i = 0; i < n: i++) 


# pragma omp atomic 
my-sum += Sin(i): 


可 以 用 parallel 指令 修改 上 面 的 代码 ; 


# pragma omp paraliel numthreads(thread.count) 
{ 


int j 

double my_sum = 0.0: 

for ti = 0; 1 < n; it+) 
# pragma omp atomic 

my-sum += Sin{i); 
} 

由 于 my_sum 和 i 都 是 在 parallel 块 中 声明 的 ， 所 以 每 个 线程 自己 都 有 这 两 个 变量 的 私有 副本 。 
现在 如 果 我 们 统计 在 较 大 的 n 的 情况 下 ,程序 对 于 thread_ count =1 和 thread_ count >1 的 运 
行 时 间 ， 就 会 发 现 只 要 thread_ count 小 于 系统 可 用 的 核 的 数量 。 如 果 不 同 线程 对 my_ sum + = 
sin(1i) 的 执行 被 视 为 不 同 的 临界 区 ， 那 么 在 单线 程 和 多 线程 环境 下 ， 程 序 的 运行 时 间 大 臻 相同。 如 
果 不 同 线程 对 my_ sum+ = sin(i) 的 执行 被 视 为 相同 的 临界 区 ， 那 么 多 线程 环境 下 的 运行 时 间 应 当 
比 单线 程 环 境 下 程序 的 运行 时 间 长 很 多 。 编 写 一 个 OpenMP 程序 实现 上 述 测 试 ， 然 后 判断 在 更 新 操作 
被 atomic 指令 保护 时 ， 你 所 使 用 的 OpenMP 实现 是 否 允许 同时 执行 更 新 操作 ? 
在 C 语言 中 ， 以 二 维 数组 作为 参数 的 函数 必须 在 参数 列表 中 说 明 列 数 ， 所 以 C 程序 员 通常 只 使 用 一 
维 数组 ， 然 后 用 代码 中 显示 地 将 二 维 下 标 转换 为 一 维 下 标 。 修 改 本 书 中 的 OpenMP 矩阵 - 向 量 乘法 程 
序 , 采用 一 维 数组 表示 算 阵 。 
从 本 书 的 网 站 上 下 载 源 代码 omp_mat_vect_rand_split. c。 和 寻找 一 个 工具 (例如 valgrind [49]) 
进行 缓存 分 析 ， 并 且 按 照 缓存 分 析 器 的 文档 来 编译 程序 ( 例如， 在 使 用 valgrind 时 ， 需 要 符号 表 和 完 
全 优化 ， 使 用 命令 gcc 一 g -02 …)。 现 在 按照 缓存 分 析 器 文档 中 的 指令 来 运行 程序 ， 程 序 的 输入 分 
别 为 & x(k- 10) 、(E 103) x(k 10 ) 和 (k. 10s) xk。& 的 值 应 该 足够 大 ， 使 得 上 面 的 3 个 输入 中 
至 少 有 一 个 可 以 使 得 2 级 缓存 的 失效 次 数 的 数量 级 为 10? 。 
a. 每 种 输入 各 有 多 少 次 1 级 缓存 写 缺 失 ? 
b. 每 种 输入 各 有 多少 次 2 级 缓存 写 缺 失 ? 
. 大 部 分 的 写 缺 失 在 哪里 发 生 ? 哪 一 种 输入 写 缺 失 最 多 ? 请 解释 为 什么 。 
. 每 种 输入 各 有 多 少 次 1 级 缓存 读 缺 失 ? 
. 每 种 输入 各 有 多 少 次 2 级 缓存 读 缺 失 ? 


mn 和 


第 5 章 用 OpenMP 进行 共享 内 存 编程 179 


f 大 部 分 的 读 缺 失 在 哪里 发 生 ” 哪 一 种 输入 读 缺 失 最 多 ? 请 解释 为 什么 。 
g. 用 上 面 的 3 个 输入 分 别 运行 程序 ， 但 是 不 再 使 用 缓存 分 析 器 。 在 哪 一 种 输入 和 下， 程序 运行 最 快 ? 
在 哪 一 种 输入 下 ， 程 序 运行 最 慢 ? 请 结合 缓存 缺失 来 解释 你 观察 到 的 不 同 。 
5.13 ”我 们 考察 8000 x8000 作为 之 前 的 矩阵 -向量 乘 法 程序 的 输入 时 该 程序 的 性 能 。 假 定 线程 0 和 线程 2 
被 分 配给 了 不 同 的 处 理 器 。 如 果 一 个 缓存 行 包含 64 字 节 或 者 8 个 双 精 度数 ， 那 么 在 线程 0 和 线程 2 
之 间 的 伪 共 享 可 不 可 能 发 生 在 向 量 y 的 任何 地 方 ? 为 什么 ?如 果 线 程 0 和 线程 3 被 分 配给 了 不 同 的 处 
理 器 ， 那 么 伪 共享 可 不 可 能 发 生 在 向 量 y 的 任何 地 方 ? 
5.14 ”我 们 考察 8 x8 000 000 作为 之 前 的 矩阵 - 向 量 乘法 程序 的 输入 时 该 程序 的 性 能 。 假 定 双 精 度数 大 小 是 
8 字 节 ， 而 缓存 行 的 大 小 是 64 字 节 ， 且 系统 有 两 个 双核 处 理 器 。 
a. 为 了 存储 向 量 y， 最 少 需要 多 少 个 缓存 行 ? 
b. 为 了 存储 向 量 y， 最 多 需要 多 少 个 缓存 行 ? 
c， 如果 缓存 行 的 边界 和 双 精 度数 的 边界 始终 一 致 ， 那 么 一 共有 和 多少 种 方式 将 y 中 的 元 素 分 配给 组 
存 行 ? 
d， 如 果 我 们 只 考虑 两 个 线程 共享 一 个 处 理 器 ， 那 么 在 我 们 的 计算 机 上 一 共有 多 少 种 方式 将 四 个 线程 
分 配给 处 理 器 ? 我 们 假定 在 同一 个 处 理 器 上 的 内 核 共享 缓存 。 
e. 在 我 们 的 例子 中 ， 有 没有 哪 一 种 对 向 量 的 分 配 和 对 线程 的 分 配方 式 不 会 产生 伪 共 享 ? 换 句 话说 ， 
对 于 处 于 不 同 处 理 器 上 的 线程 ， 它 们 各 自 要 处 理 的 向 量 的 元 素 不 会 出 现在 同一 个 缓存 行内 。 
f 有 和 多少 种 方法 将 向 量 元 素 分 配给 缓存 行 和 将 线程 分 配给 处 理 器 ? 
g 在 这 些 分 配 中 ， 有 多 少 会 使 得 程序 没有 伪 共享 ? 区 9 
5.15 a. 修改 矩阵 - 向量 乘法 程序 ， 使 得 可 能 产生 伪 共 享 时 ， 程 序 会 填充 向 量 y。 当 线程 以 锁 步 的 方式 执 
行 时 ， 填 充 应 当 确 保 在 一 个 缓存 行内 的 y 的 元 素 不 会 被 两 个 或 者 两 个 以 上 的 线程 共享 。 例 如 ， 假 
设 一 个 缓存 行 包含 8 个 双 精 度数 ， 我 们 用 4 个 线程 来 运行 程序 。 如 果 我 们 为 y 至 少 分 配 了 48 个 双 
精度 数 的 存储 空间 ， 那 么 在 每 次 for i 循环 的 选 代 中 ,不 可 能 会 有 两 个 线程 同时 访问 同一 个 组 
存 行 。 
b. 修改 矩阵 - 向 量 乘法 程序 ， 使 得 每 个 线程 在 for i 循环 时 对 它 要 处 理 的 向 量 y 的 元 素 采 用 私有 存 
储 。 当 一 个 线程 计算 出 它 私有 的 y 中 的 元 素 后 ， 它 应 该 将 这 些 私有 的 变量 复制 到 共享 变量 中 。 
c, 以 上 两 种 方法 与 最 初 的 方法 相 比 ， 性 能 如 何 ? 两 者 相 比 ， 性 能 如 何 ? 
5.16 尽管 strtok_r 函数 是 线程 安全 的 ， 但 是 它 会 不 必要 地 修改 输入 字符 串 。 请 编写 一 个 线程 安全 的 分 
词 函 数 ， 该 函数 不 会 修改 输入 字符 串 。 


5. 13 编程 作业 


5.1 使 用 OpenMP 实现 第 2 章 讨论 的 并 行 直方 图 绘制 程序 。 
5.2 假定 我 们 往 一 个 正方 形 靶子 上 随机 投掷 飞镖 ， 靶 心 位 于 正中 ， 靶 子 的 长 度 为 2 英 瓜 。 假 设 有 一 个 圆 内 
切 于 该 正方 形 靶 子 ， 那 么 圆 的 半径 是 1 英尺 ， 面 积 为 下 平方 英尺 。 如 果 飞 镖 击 中 的 点 是 均匀 分 布 的 
( 且 飞 镖 总 是 击 中 靶子 ) ， 那 么 飞镖 落 在 圆 内 的 次 数 应 当 近 似 地 满足 下 面 的 等 式 : 
飞镖 落 在 图 内 的 次 数 下 
飞镖 落 在 靶 内 的 总 次 数 4 
因为 环 所 包含 的 面积 与 正方 形 面积 的 比值 是 r/4。 
我 们 可 以 用 这 个 公式 和 随机 数 产生 器 来 估计 " 的 值 : 
number-in-circle = 0; 
for itoss = 0; toss < number_of tosses; toss++) 1 
x = random double between -1 and 1: 
y = random double between -1 and 1; 
distance_squared = Xx*X + y*ky: 


if (distance-sduared <= 1) number-in-Ccircle++i 


] . 
pi-estimate = 4*number._in.circle/((double) number_of_tosses); 
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5.4 


这 种 采用 了 随机 (随机 投掷 ) 的 方法 称 为 蒙特 卡 洛 (Monte Carlo) 方法 。 

编写 一 个 采用 蒙特 卡 党 方法 的 OpenMP 程序 估计 7 的 值 。 在 开启 任何 线程 前 读 取 总 的 投掷 次 数 。 使 用 
reduction 子 句 计 算 飞 镖 击 中 环 内 的 次 数 。 在 合并 所 有 的 线程 后 ， 打 印 结果 。 为 了 估计 出 一 个 合理 
的 下， 投掷 次 数 必须 非常 大 ， 可 能 总 的 投掷 次 数 和 击 中环 内 的 次 数 都 得 用 1ong int 型 来 表示 。 

计数 排序 是 一 个 简单 的 串 行程 序 ， 实 现 如 下 : 


void Count_sort(int a[]，int n) I 
int 1，j，count ; 
intx temp = malloc(n*Sizeof(int)); 


for (i = 0; i < n; it+) 1 
count = 0: 
for (j = 0; j < Nn; j++)} 
if (a[j] < aci]) 
COunt+t+t' 
else if (a[j] == a[i] && j < i) 
Count+t+: 
tempfcount] = afi]; 
} 


memcpy(a, temp, Nxsizeof(int)): 
free(temp): 
} Ar Count_sort */ 


基本 思想 是 对 列表 a 中 的 每 一 个 元 素 af i] ， 找 出 比 a[ i] 小 的 元 素 的 个 数 。 然 后 用 该 结果 作为 下 标 ， 
将 af i 插入 新 的 列表 中 。 当 列表 中 包含 相同 的 元 素 时 ,计数 排 序 有 点 小 小 的 问题 ， 因 为 此 时 它们 会 
被 放 到 新 列表 中 的 同一 个 位 置 。 为 了 解决 这 个 问题 ， 可 以 递增 相同 元 素 的 下 标 。 如 果 a[ i] = = a[j] 
且 j <1i， 那 么 认为 a[ j]“ 小 于 ”al i]。 
在 算法 执行 结束 后 ， 通 过 字符 串 库 函数 memcpy 将 临时 列表 中 的 元 素 复 制 到 最 初 的 列表 中 。 
a 如 果 我 们 试图 并 行 化 for 循环 (外 层 循环 ) ， 哪 些 变量 应 当 是 私有 的 ， 哪 些 变量 应 当 是 共享 的 ? 
b.， 如果 我 们 使 用 前 面 定义 的 作用 域 来 并 行 化 for 循环 ， 是 否 存在 循环 依赖 ? 请 解释 你 的 回答 。 
c. 我 们 是 否 能 够 并 行 化 对 函数 memcpy 的 调用 ? 我 们 是 否 能 够 修改 代码 ， 使 得 这 部 分 代码 可 以 被 并 
行 化 ? 
d. 编写 一 个 包含 对 计数 排序 程序 并 行 化 实现 的 C 程序 。 
e, 与 串 行 化 的 计数 排序 程序 相 比 ， 并 行 化 的 计数 排序 程序 的 性 能 如 何 ?与 串 行 化 的 库 函 数 qsort 相 
比 ， 并 行 化 的 计数 排序 程序 的 性 能 如 何 ? 
解 线性 方程 组 时 ， 我 们 经 常 采 用 高 斯 消 元 法 和 回 代 法 。 高 斯 消 元 法 通过 行 操作 将 一 个 nxn 矩阵 转换 
为 上 三 角 短 阵 。 
。 将 一 行 加 到 另外 一 行 上 
。 两 行 互 换 
。 将 一 行 乘 以 一 个 非 0 常数 
在 一 个 上 三 角 和 矩阵 中 ， 左 上 角 到 右 下 角 的 对 角 线 下 的 元 素 全 为 0。 
例如 ， 线 性 方程 组 : 
2x0 — 3x] 一 3 
4x0 一 Sx 二 2 一 了 
2x0 一 XI 一 3x 二 5 


可 以 整理 为 上 三 角 和 矩阵 : 


这 个 上 三 角 和 矩阵 可 以 很 容易 地 解 出 ， 先 通过 最 后 一 个 等 式 得 到 x, ， 然 后 通过 第 二 个 等 式 得 到 x ， 最 后 


5.5 


5.6 


用 第 一 个 等 式 得 到 x。。 
我 们 可 以 为 代 人 法 设计 一 些 串 行 算法 。 其 中 “面向 行 


for (row = N-l; row >= 0; row 一 ) | 
XLrow] = bLrow]i 
for (col = row+l; col < n: col++) 
x[row] -= ALrow][colJ*x[col]; 
XxX[row] /= A[row][row]: 
| 


这 里 ， 线 性 方程 组 右 侧 的 结果 变量 存储 在 向 量 b 中 ， 二 维 数组 的 系数 存储 在 数组 A 中 ， 而 答案 存储 在 


数组 x 中 。 另 外 一 种 “面向 列 ” 的 方法 如 下 : 
for (row = 0: row < mi row++) 


x[row] = bfrow]: 


for (col = n-l; col >= 0; co 一 ) 1 
x[col] /= Ar[col1][col]i 
for (row = 0; row < Col; row++) 
x[row] -= A[row][col]*x[col]: 
! 
. 判断 “面向 行 ”的 算法 的 外 层 循环 是 否 可 并 行 化 。 
. 判断 “面向 行 ” 的 算法 的 内 层 循环 是 否 可 并 行 化 。 
. 判断 “面向 列 ” 的 算法 的 外 层 循环 是 否 可 并 行 化 。 
. 判断 “面向 列 ” 的 算法 的 内 层 循 环 是 否 可 并 行 化 。 


名 0 TT 


完成 。 


f 用 schedule(runtime) 子 句 修改 你 的 并 行 循环 ， 并 用 多 种 调度 方式 测试 你 的 程序 。 如 果 你 的 上 三 
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”的 版 本 是 : 


. 为 你 认为 可 以 并 行 化 的 循环 语句 编写 一 个 OpenMP 程序 。single 指令 在 这 里 可 能 会 有 用 一 一 如 果 
一 个 代码 块 被 并 行 执行 ， 子 代码 块 可 以 被 #pragma omp single 指令 修改 ， 那 么 它 的 子 代 码 块 应 该 
只 能 被 一 个 线程 执行 。 正 在 执行 的 线程 组 中 的 线程 会 在 这 个 指令 的 末尾 被 阻塞 ， 直 到 所 有 的 线程 都 


角 和 矩阵 有 10 000 个 变量 ， 哪 一 种 调度 策略 性 能 最 好 ? 


使 用 OpenMP 编写 一 个 程序 实现 高 斯 消 元 法 (参见 前 面 的 问题 ) 。 你 可 以 假定 输入 的 方程 组 不 需要 行 


交换 。 


使 用 OpenMP 实现 生产 者 - 消费 者 程序 ， 其 中 一 些 线程 是 生产 者 ， 另 外 一 些 线程 是 消费 者 。 在 文件 集 
合 中 ,每 个 生产 者 针对 一 个 文件 ， 从 文件 中 读 取 文本 。 它 们 将 读 出 的 文本 行 插入 到 一 个 共享 的 队列 
中 。 消 费 者 从 队列 中 取出 文本 行 ， 并 对 文本 行进 行 分 词 。 符 号 是 被 空白 符 分 开 的 单词 ， 当 消费 者 发 现 


一 个 单词 后 ， 它 将 该 单词 输出 到 stdout。 


一 | 


第 6 章 | 


An Introduction to Parallel Programming 


并 行程 序 开发 





在 前 面 的 三 章 中 ， 我 们 不 仅 学 习 了 并 行 应 用 程序 编程 接口 ， 也 开发 了 一 些小 的 并 行程 序 ， 这 
些 并 行程 序 涉及 并 行 算法 的 实现 。 在 本 章 中 ,我 们 会 看 到 一 些 更 大 型 的 例子 : n 体 问 题 和 旅行 商 
问题 。 对 于 每 一 个 问题 ， 我 们 先 提 出 串 行 算 法 ， 然 后 对 串 行 算法 做 出 改进 。 在 运用 Foster 方法 并 
行 化 程序 时 ， 我 们 发 现 开发 共享 内 存 程序 和 分 布 式 内 存 程序 有 很 多 相同 之 处 。 我 们 还 发 现 有 些 并 
行 问题 找 不 到 相似 的 串 行 问题 。 作 为 并 行程 序 员 ， 我 们 发 现 有 些 问 题 必须 从 零 开 始 ， 重 新 设计 
程序 。 


6.1 n 体 问题 的 两 种 解决 方法 

在 n 体 问 题 中 ， 我 们 试图 确定 一 些 相互 作用 的 粒子 在 一 段 时 间 后 的 位 置 和 速度 。 例 如 ， 天 文 
学 家 可 能 想 知道 某 些 星 球 的 位 置 和 速度 ， 而 化 学 家 可 能 想 知道 分 子 或 者 原子 的 位 置 和 速度 。n 体 
问题 的 解决 方案 是 通过 模拟 粒子 行为 找到 解决 n 体 问题 的 程序 。 问 题 的 输入 是 粒子 的 质量 ， 粒 子 
在 开始 时 的 位 置 和 速度 ; 输出 一 般 是 粒子 在 用 户 指定 的 时 间 序 列 中 的 速度 和 位 置 ， 或 者 只 是 粒子 
在 用 户 指定 的 时 间 段 后 的 速度 和 位 置 。 

我 们 首先 开发 一 个 串 行 化 的 二 体 程 序 ， 然 后 针对 共享 内 存 和 分 布 式 内 存 系统 并 行 化 该 串 行 
程序 。 


6.1.1 问题 
为 了 使 问题 更 加 清楚 ， 我 们 的 程序 模拟 星球 或 者 行星 的 运行 。 我 们 使 用 牛顿 第 二 运动 定律 和 
万 有 引力 定律 来 确定 位 置 和 速度 。 因 此 ， 如 果 粒 子 g 在 时 间 t 时 的 位 置 为 s,(1) ,粒子 上 在 时 间 t 
时 的 位 置 为 s。(1) ， 那 么 粒子 作用 在 粒子 g 上 的 作用 力 为 
(DO = -TO Ce -ma (6-1) 
CG 是 万 有 引力 常数 (6.673 x 10"m/(kg s))，m 和 me 分别 是 粒子 9 和 上 的 质量 ， 
1s (0 -si(D | 是 粒子 g 和 上 之 间 的 距离 。 需 要 注意 的 是 ， 位 置 、 速 度 、 加 速度 和 力 一 般 都 是 向 
量 ， 所 以 用 黑 斜 体 表 示 这 些 变量 ， 用 斜体 表示 其 他 标量 、 变 量 ， 例 如 时 间 上 和 万 有 引力 常数 G。 
对 于 任意 一 个 粒子 ， 使 用 式 (6-1) ， 通 过 累加 所 有 其 他 粒子 在 该 粒子 上 的 作用 力 ， 从 而 得 到 
该 粒子 所 受到 的 总 作用 力 。 假 设 粒 子 的 编号 为 0、1、2、…、n - 1， 那 么 粒子 g 所 受到 的 总 作用 
力 是: 


-1 


F(t) = Bf = on, eT 


需要 注意 的 是 ， 加 速度 是 位 移 的 二 阶 导数 ， 牛 顿 第 二 运动 定律 表明 作用 在 物体 上 的 作用 力 等 于 物 
体 的 质量 乘 以 它 的 加 速度 ， 所 以 如 果 粒 子 9 的 加 速度 是 a,(1) ， 那 么 F(t) =m,a,(1) =m,s"(1)， 
其 中 (1) 是 位 移 s(t) 的 二 阶 导 数 。 因 此 我 们 可 以 使 用 式 62) 得 到 粒子 9 的 加 速度 ， 


s(t) = -3 Ty ei -Sb (6-3) 


s(t) - s(t)] (6-2) 
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牛顿 定律 给 了 我 们 一 个 微分 方程 〈 涉 及 导数 的 方程 ) ， 我 们 的 工作 是 计算 出 时 间 : 时 粒子 的 位 移 
s,(1) 和 速度 v(t) =si(i)。 

假定 需要 计算 出 在 时 间 序 列 

t=0, At, 2At, :…, TAt 

下 粒子 的 位 移 和 速度 ， 更 为 常见 的 情况 是 ， 我们 仅仅 需要 计算 出 TAt 时 粒子 的 位 移 和 速度 。7 和 
Ai 由 用 户 说 明 ， 所 以 程序 的 输入 是 n»( 即 粒子 的 个 数 ) 、A:、7 和 每 个 粒子 的 质量 、 初 始 位 置 和 
初始 速度 。 在 通用 的 解决 方案 中 ， 位 移 和 速度 都 是 三 维 向 量 ,， 但 是 为 了 使 问题 更 加 简化 ， 假 定 粒 
子 在 平面 上 移动 ， 使 用 二 维 向 量 来 表示 它们 。 

程序 的 输出 是 = 个 粒子 在 时 间 步 长 0，At，2At，…，TAt 时 的 位 置 和 速度 ,或 者 只 是 粒子 在 
时 间 TAt 时 的 位 置 和 速度 。 为 了 得 到 在 最 终 时 间 的 输出 ， 可 以 增加 一 个 输入 选项 ， 用 户 可 以 通过 
这 个 选项 说 明 只 需要 最 终 的 位 置 和 速度 。 


6. 1.2 两 个 串 行程 序 
串 行 的 =” 体 解决 方法 一 般 以 下 面 的 伪 代 码 为 基础 : 


1 Get input data; 
2 for each timestep { 
3 if (timestep output) Print positions and velocities of 
particles; 
for each particie q 
Compute total force on q; 
for each particle 9 
Compute position and velocity of q; 


op 


} 
Print positions and velocities of particles; 


可 以 使 用 计算 粒子 总 作用 力 的 公式 ( 式 (6-2)) 来 细 化 上 面 伪 代 码 中 计算 作用 力 的 第 4 ~5 行 : 


for each particle q { 
for each particie k l= q { 
x-diff = pos[qj[X] — pos[kj[LX]; 
y-diff = pos[q][Y] — pos[k]rY]， 
dist = sqrt(xdiffxx.diff + ydiff*sy_-diff): 
dist-cubed = dist*dist*xdist; 
forces[q][X] 一 Gxmasses[qj]*masses[k]/dist_cubed * X-diff; 
forces[q][Y] —= Gxmasses[q]xmasses[k]/dist.cubed * y-diff: 
} 
} 


这 里 ， 假 设 粒 子 所 受到 的 作用 力 forces 和 位 置 pos 以 二 维 数组 的 形式 存储 。 我 们 定义 常量 X = 
0 和 Y=1， 所 以 粒子 在 x 轴 上 所 受 的 作用 力 为 forces[9q][X], 在 y 轴 上 受到 的 作用 力 为 
forces[ qj[Y] ( 稍 后 我 们 将 进一步 研究 程序 的 数据 结构 ) 。 

按照 牛顿 第 三 运动 定律 ， 作 用 力 和 反作用 力 是 成 对 出 现 的 。 利 用 牛顿 第 三 运动 定律 将 作用 力 
的 计算 减 半 ， 如 果 粒 子 上 对 粒子 4 的 作用 力 是 ， 那 么 g 对 的 作用 力 是 -fi;。 通 过 简化 ， 我 们 
可 以 按照 程序 6-1 修改 计算 作用 力 的 代码 。 为 了 更 好 地 理解 这 个 伪 代 码 ， 我 们 将 作用 力 设 想 为 一 
个 二 维 数组 : 


0 fo fo “" ho 
-fh 0 fs 可 万。 
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(为 什么 所 有 对 角 线 上 的 元 素 都 是 0?) 最 初 的 算法 简单 地 将 第 4 行 的 所 有 元 素 相 加 得 到 forces 
[9]。 在 修改 过 的 算法 中 ， 当 g =0 时， 循环 体 for each particle 9 将 所 有 第 0 行 的 元 素 加 到 
forces[0] 中 。 对 有 =1，2，…, nm-1， 第 0 列 的 第 上 个 元 素 会 加 到 forces[k] 中 。 通 常 , 第 g 
次 迭代 将 第 g 行 在 对 角 线 右边 的 元 素 加 到 forcesfq] 中 ， 然 后 将 第 4 列 在 对 角 线 以 下 的 元 素 分 
别 加 到 相应 粒子 的 作用 力 中 ， 也 就 是 说 ,将 第 个 元 素 加 到 forces[K] 中 。 


程序 6-1 计算 n 体 作用 力 的 简化 算法 





for each particle q 
forces[q] = 0; 
for each particle q { 
for each particle k > q { 
x-diff = pos[g]J[X] 一 pos[kj[LX]; 
y-diff = pos[q]LY] — pos[k][Y]， 
dist = sqrt(x_diffxx_diff + ydiff#y.diff); 
dist_cubed = dist*xdistxdist:; 
force-qk[X] = Gaxmassestql*masses[kj/distcubed * x-diff; 
force-qk[Y] = Gxmasses[qj*masses[kj/dist.cubed * ydiff 


forces[q]J[X] += force_qk[X]; 
forces[gl[Y] += force-qkEY]; 
forces[K][X] 一 force-qk[X]; 
forces[kj[Y] 一 force-qkfY]; 
} 
} 





使 用 修改 过 的 算法 时 ， 必 须 在 另外 一 个 循环 中 初始 化 forces 数组 ， 因 为 计算 作用 力 的 第 g 
次 迭代 也 会 向 forces[kK] (k=g+1, 9g+2,，…, n~-1) 加 入 值 ， 而 不 只 是 计算 forces[ 9q]。 

为 了 区 分 这 两 种 算法 ， 我 们 把 最 初 计算 作用 力 的 n 体 算法 叫做 基本 算法 ， 改 进 后 的 算法 叫做 
简化 算法 。 

现在 还 需要 计算 出 位 置 和 速度 。 我 们 知道 粒子 g 的 加 速度 可 以 通过 公式 

Qt) = s(t) = F(t)/m, 

计算 得 出 ，s*(1) 是 s,(1) 的 二 阶 导 数 ，F,(1) 是 粒子 g 在 时 间 ; 时 所 受到 的 作用 力 。 我 们 也 知 
道 速 度 y (1) 是 位 移 s(t1) 的 一 阶 导数 ， 所 以 我 们 需要 对 加 速度 求 积 分 得 到 速度 ， 然 后 通过 对 速 
度 求 积分 得 到 位 移 。 

开始 时 ， 我 们 认为 可 以 很 容易 地 找到 在 式 (6-3) 中 函数 的 不 定 积分 。 然 而 ,仔细 思考 以 后 
我 们 发 现 这 种 方法 有 问题 ， 等 式 右边 包含 未 知 的 函数 s, 和 s，( 不 仅仅 是 时 间 t)， 所 以 我 们 采用 数 
值 分 析 方法 来 估计 位 移 和 速 谍 。 这 表示 ， 我 们 不 是 找到 一 个 简单 的 闭 公 式 ， 而 是 逼近 感 兴趣 的 时 
间 点 上 的 位 移 和 速度 。 有 许多 可 以 采用 的 数值 分 析 方 法 ,但 是 我 们 采用 了 最 简单 的 一 种 ， 欧 拉 方 
法 ， 这 个 方法 以 著名 瑞士 数学 家 欧 拉 (1707 一 1783 年 ) 命名 。 在 欧 拉 方法 中 ， 使 用 切线 逼近 一 
个 函数 。 它 的 基本 思想 是 : 如 果 我 们 在 时 间 % 知道 函数 g(i。) 的 值 以 及 它 的 导数 g'(i,)， 那 么 
我 们 在 时 间 t。 + At 时 通过 g(t) 处 的 切线 近似 地 得 到 g(t。 + At)。 图 6-1 是 该 方法 的 一 个 例子 。 
现在 如 果 我 们 知道 了 线 上 的 一 个 点 (如 ，g(5) ) ， 和 线 的 斜率 8 (aa) 那么 直线 的 方程 可 以 表 
示 为 

y = g(to) +t g(to)(t—t) 
因为 我 们 只 感 兴趣 在 1 = + At 时 函数 的 值 ， 所 以 有 
g(t + At) ~ g(to) +g'(ito)(t + Ai-i) = g(to) + Aig'(i,) 

注意 ， 当 g(t) 和 y 是 向 量 时 ， 上 面 的 公式 仍然 起 作用 : 当 g(i1) 和 y 是 向 量 时 ，g'(t) 也 是 向 
量 ， 这 个 公式 只 是 将 向 量 与 另 一 个 标量 At 相 乘 的 向 量 相 加 。 
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y=9(to}+ g(to) (( 一 ) 





to to+At 
图 6-1 使 用 切线 来 逼近 一 个 函数 
现在 我 们 知道 在 时 间 0 时 的 s(:) 和 s'(:)， 我 们 要 使 用 切线 以 及 计算 加 速度 的 公式 计算 
s,(At) 和 v, (Ai): 
SAL) ~ s,(0) + Ats'(0) = s,(0) + Aiv, (0) 


v,(At) ~ v,(0) + Aty’(0) = »,(0) + Ata,(0) = »,(0) + At Pl0) 


当 我 们 想 扩展 这 个 方法 来 计算 s,(2At) 和 s。(2At) ， 我 们 看 到 事情 变 得 有 些 不 同 ， 因为 我 们 不 知 到 3 
道 s,(At) 和 s',(At) 的 准确 值 。 然 而 ， 如 果 对 s,(At) 和 s',(At) 求 出 的 近似 值 是 比较 好 的 ， 那 
么 应 该 可 以 通过 相同 的 方法 计算 得 到 s,(2At) 和 s'(2At) 比较 好 的 到 近 。 这 就 是 欧 拉 公式 所 要 做 
的 〈 见 图 6-2) 。 现 在 我 们 可 以 加 入 计算 位 置 
和 速度 的 代码 以 完善 两 种 n 体 问 题 算法 的 伪 
代码 : 

Pos[q]LX] += dejta_t*vel[q][X]; 

pos[q]lEY] += delta-t*vet[q][Y]; 


vel[q][X] += delta-t/massestq]x*forces[q][X]; 
vel[qj[¥Y] += delta-t/masses[q]yxforces[q][Y]; 


这 里 , 分别 用 pos[q]、vel[q] 和 forces 
[qj 存储 粒子 g 的 位 置 、 速 度 和 所 受到 的 作 
用 力 。 

在 并 行 化 该 串 行程 序 之 前 , 我们 先 研究 一 
下 算法 的 数据 结构 。 我 们 用 数组 类 型 来 存储 to 1 ty+2At 
向 量 : 


#define DIM 2 





to+At to+3At 


图 6-2 欧 拉 方法 

typedef double vect_t[LDIM]; 

也 可 以 使 用 结构 体 代替 数组 存储 向 量 。 然 而 ， 如 果 使 用 数组 ， 当 程序 处 理 三 维 问题 时 ， 原 则 
上 ， 只 需要 改变 宏 DIM。 如 果 使 用 结构 体 ， 那 么 必须 重 写 代码 以 访问 向 量 中 的 元 素 。 

对 于 每 一 个 粒子 ， 需 要 知道 它 的 ; 

。 质量 。 

。 位 置 。 

。 速度 。 
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。 加 速度 。 

。 所 受 作用 力 。 
由 于 我 们 采用 的 是 牛顿 物理 学 ， 所 以 每 一 个 粒子 的 质量 都 是 常数 ， 但 是 其 他 的 值 会 随 着 程序 的 运 
行 而 不 断 改变 。 如 果 我 们 查看 代码 会 发 现 ， 每 当 计算 出 这 些 变量 在 某 个 时 间 点 的 新 值 时 ， 它 原来 
的 值 就 不 再 需要 了 。 例 如 ， 我 们 不 会 进行 如 下 的 操作 


new-pos-q = f(o1d.pos.q); 
new_-vel.q = g(01d_.pos-9, new-pos-q); 


此 外 ， 加 速度 只 用 来 计算 速度 ， 它 的 值 可 以 通过 计算 作用 力 得 出 ， 所 以 我 们 只 需要 用 一 个 临时 的 
本 地 变量 存储 加 速度 。 

对 于 每 一 个 粒子 ,我 们 只 需要 存储 它 的 质量 、 当 前 位 置 、 速 度 和 所 受 作用 力 。 可 以 用 结构 体 
来 存储 这 四 个 变量 ， 用 结构 体 数 组 存储 所 有 粒子 的 数据 。 当 然 ， 我 们 不 是 非得 将 与 粒子 相关 的 变 
量 存储 在 结构 体 中 ， 也 可 以 用 多 种 方式 将 数据 分 离 在 不 同 的 数组 中 。 我 们 选择 将 质量 、 位 置 和 速 
度 存储 在 一 个 结构 体 中 ， 而 将 粒子 所 受 作用 力 存 储 在 数组 中 。 这 样 作用 力 会 存储 在 主 存 中 连续 的 
地 址 中 ,我 们 可 以 使 用 快速 的 晴 数 ， 例 如 memset， 在 迭代 开始 的 时 候 将 所 有 的 元 素 置 为 0: 


#include <string.h> /*# For memset */ 
vect_t* forces = malloc(n*sizeof(vect_t)); 
for (step = 1; step 《= nsteps; Step++) { 


/*# Assign 0 to each element of the forces drray */ 

forces = memset(forces, 0, nxsizeof(vect_t): 

for {part = 0; part < n-—l; part++) 
Compute.force(part, forces, . . .) 


i 
如 果 粒 子 所 受 的 作用 力 是 结构 体 的 成 员 ， 那 么 它 不 会 在 主 存 中 占据 连续 的 区 域 ， 这 样 我 们 必须 使 
用 较 慢 的 for 循环 将 每 个 元 素 置 为 0。 


6. 1.3 并 行 化 n 体 算法 
对 nn 体 算法 使 用 Foster 方法 。 我 们 最 初 的 目的 是 要 运行 多 个 任务 ， 开 始 时 可 以 将 每 一 个 时 间 
点 上 对 位 置 、 速 度 和 所 受 作用 力 的 计算 视 为 一 个 任务 。 在 基本 算法 中 ,粒子 所 受 的 总 作用 力 可 以 
直接 通过 作用 力 式 (6-2) 计算 得 出 。 粒 子 g 在 时 间 : 时 所 受 作用 力 F,(:) 的 计算 需要 每 个 粒子 r 
的 位 置 s,(1)。 对 速度 y(t+ At) 的 计算 需要 前 一 时 刻 的 速度 v(t) 和 前 一 时 刻 的 作用 力 F (1)。 
最 后 ， 对 s,(t + At) 的 计算 需要 s,(t) 和 v(t)。 各 个 任务 之 间 的 通信 如 图 6-3 所 示 。 这 个 图 清晰 
地 指出 ， 绝 大 多 数 任 务 之 间 的 通信 和 都 发 生 在 与 单个 粒子 有 关 的 任务 中 ， 所 以 如 果 我 们 将 对 s, (1) 、 
v,(t) 和 F(t) 的 计算 凝聚 在 一 个 任务 中 ， 任 务 间 的 通信 会 大 大 简化 〈 见 图 6-4) 。 现 在 任务 与 粒 
子 相 对 应 ， 我 们 在 图 6-4 中 对 任务 间 的 通信 数据 进行 了 标记 。 例 如 ， 在 时 间 :时 ， 由 粒子 q 指向 
粒子 > 的 箭头 用 粒子 9 的 位 置 s, 标记 。 
对 于 简化 算法 ， 粒 子 内 部 的 通信 相同 。 也 就 是 说 ， 为 了 计算 % (t+1)， 需 要 s(t) 和 v(t); 
为 了 计算 v(t+At)， 需要 v,(1) 和 F(t)。 因 此 ， 我们 有 必要 将 与 单个 粒子 相关 的 计算 聚集 在 一 
个 复合 任务 中 。 
在 简化 算法 中 ,我 们 利用 了 作用 力 的 性 质 f, = -f,。 所 以 如 果 g 小 于 r， 那么 从 任务 7 到 任 
务 9 的 通信 与 在 基本 算法 中 的 通信 相同 一 一 为 了 计算 F,(:) ,任务 9 需要 从 任务 + 获得 s，(:)。 
然而 ， 从 任务 9 到 任务 r 的 通信 不 再 是 s,(1) ， 而 是 粒子 r+ 作 用 在 粒子 g 上 的 作用 力 ， 即 f,。 见 
图 6-5。 
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Sr(t+At) 





for(t+At) 


图 6-4 基本 nn 体 算法 中 复合 任务 之 间 的 通信 图 6-5 简化 n 体 算法 中 复合 任务 之 间 的 通信 


Foster 方法 的 最 后 一 步 是 映射 。 如 果 有 n 个 粒子 和 时 间 步 长 7， 那么 不 论 在 基本 算法 中 还 是 
在 简化 算法 中 都 会 有 nT 个 任务 。 在 天 文学 中 的 n 体 问题 往往 涉及 成 千 上 万 个 粒子 ， 所 以 n 很 有 
可 能 比 可 用 的 核 的 个 数 大 几 个 数量 级 ， 同 时 了 也 可 能 远 远大 于 可 用 的 核 的 个 数 。 所 以 ， 原 则 上 当 
将 任务 映射 到 核 时 ， 采 取 二 维 的 方式 。 然 而 ， 如 果 考 虑 欧 拉 方 法 的 实质 ， 我 们 将 发 现 将 不 同时 刻 
与 单个 粒子 相关 的 任务 分 配 到 不 同 核 的 方式 不 是 高 效 的 。 在 估算 s,(1 + At) 和 v(t+At) 时 ， 欧 
拉 方 法 必须 要 先知 道 s,(1) 、v,(1) 和 a,(1)。 内 此 ， 如 果 将 粒子 g 在 时 间 t 时 的 任务 分 配给 核 6， 
而 将 粒子 g 在 时 间 t+ At 时 的 任务 分 配给 核 c, 拓 c， 那么 必须 从 co 向 ci 传递 8,(1)、v,(1) 和 
F,(1) 。 当 然 ， 如 果 将 粒子 4 在 时 间 上 和 时 间 :+ At 时 的 任务 映射 到 同一 个 核 ， 那么 上 述 的 通信 就 
是 不 必要 的 了 ， 所 以 一 旦 将 粒子 g 在 前 一 个 时 间 的 任务 映射 到 核 c,， 我 们 最 好 将 粒子 g 下 一 个 时 刻 
的 任务 也 映射 到 该 核 上 ， 因 为 我 们 不 会 同时 执行 粒子 9 在 两 个 不 同时 刻 的 任务 。 因 此 ， 将 任务 映射 
到 核 的 过 程 实际 上 是 将 粒子 分 配给 核 的 过 程 。 

乍 -- 看 起 来 ， 按 照 每 个 核 大 约 n/thread_count 个 粒子 的 方式 ， 将 粒子 分 配给 核 就 可 以 使 
各 个 核 的 负载 平衡 。 这 个 想法 对 于 基本 算法 确实 成 立 ， 因 为 在 基本 算法 中 计算 每 个 核 的 位 置 、 速 
度 和 作用 力 的 工作 都 是 相同 的 。 然 而 ， 在 简化 算法 中 计算 作用 力 时 ， 计 算 较 小 编号 的 迭代 所 需要 


的 计算 量 远 远 大 于 较 大 编号 的 迭代 所 需要 的 计算 量 。 为 了 说 明 这 一 点 ,我 们 再 来 看 看 简化 算法 中 
计算 粒子 4 的 总 作用 力 的 伪 代 码 : 8 
for each particle k > qt 79 


x-diff = pos[qi[X] 一 posLK][X]; 

y-diff = pos[q][Y] ~ pos[k][LY]; 

dist = Sqrt(xdiff*xdiff + ydiffxy_diff); 

dist-cubed = distxdist*dist:; 

force-qk[X] = Gx*masses[qj*masses[kl/dist_cubed * x_diff: 
force-qk[Y] = G#masses[ql*masses[k]/dist_cubed * y-diff; 
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forces[qj[X] += force-qk[X]; 
forces[q][Y] += force.qk[Y]; 
forces[k][X] -= force-qk[X]; 
) forces[k][Y] 一 force-qk[Y]; 
例如 ， 当 g=0 时 ， 我 们 通过 for each particlek>q 做 n-1 次 迭代 ; 而 当 9=n -1 时 ,我 们 
将 不 做 任何 迁 代 。 因 此 ， 对 于 简化 算法 ， 我 们 相信 对 粒子 进行 循环 划分 比 块 划分 能 更 均衡 地 分 配 
计算 任务 。 
然而 ， 在 共享 内 存 环境 中 ， 循 环 地 将 粒子 划分 给 各 个 核 肯 定 比 块 划分 导致 更 多 的 缓存 缺失 ; 
而 在 分 布 式 内 存 环境 下 ， 循 环 法 导致 的 通信 数据 负载 可 能 比 块 划分 法 导致 的 通信 数据 负载 大 ( 见 
习题 6. 8 和 习题 6.9) 。 
因此 ， 对 于 将 与 单个 粒子 有 关 的 计算 组 合 在 一 个 复合 任务 的 模拟 计算 方法 ， 我 们 有 如 下 结论 ; 
(1) n 体 问题 的 基本 算法 采用 块 划 分 法 会 有 更 好 的 性 能 。 
(2) 对 于 简化 算法 ， 循 环 划分 可 以 使 得 在 计算 作用 力 时 的 负载 更 为 均衡 。 然 而 采用 该 划分 方 
法 带 来 的 提升 需要 与 共享 内 存 环境 下 缓存 性 能 的 降低 、 分 布 式 内 存 环境 下 额外 的 通信 和 负载 相 
权衡 。 
为 了 确定 将 任务 映射 到 核 上 的 最 佳 方法 ， 我 们 需要 做 一 些 实验 。 
6.1.4 关于 LO 
你 可 能 已 经 注意 到 ， 尽 管 VO 问题 在 所 有 的 串 行 算法 中 都 处 于 重要 地 位 ， 但 关于 并 行 化 =” 体 
问题 算法 的 讨论 并 没有 涉及 0 问题 。 我 们 在 之 前 的 一 些 章节 中 多 次 讨论 了 VO 问题 。 不 同 并 行 
系统 的 VO 能 力 差 别 很 大 ， 那 些 比较 常用 的 基本 IO 机 制 很 难 获取 较 高 的 性 能 。 基 本 IO 机 制 是 
为 单线 程 或 者 单 进程 程序 设计 的 ， 当 多 个 线程 或 者 多 个 进程 试图 访问 WO 缓冲 区 时 ， 系 统 不 会 调 
度 它们 的 访问 。 例 如 ， 如 果 多 个 线程 试图 同时 执行 : 


580] printf("Hello from thread %d of %d\n", my.rank, thread_count); 


那么 输出 的 顺序 是 不 可 预测 的 。 更 严重 的 是 ， 同 一 个 线程 的 输出 不 是 出 现在 同一 行 上 ， 而 是 被 来 
自 其 他 线程 的 输出 分 割 为 多 个 片段 。 

因此 ， 正 如 我 们 之 前 所 提 到 的 那样 ， 除 非 是 调试 程序 的 输出 ， 否 则 我 们 一 般 认 为 只 有 一 个 线 
程 /进程 完成 所 有 的 V0 操作 ， 并 且 当 计算 程序 的 运行 时 间 时 ， 我 们 使 用 这 个 选项 打印 最 终 的 时 
间 。 此 外 ， 我 们 不 会 将 这 个 输出 操作 计算 到 运行 时 间 中 。 

当然 ， 即 使 忽略 VO 操作 的 开销 ， 我 们 也 不 能 忽略 它 的 存在 。 我 们 将 在 讨论 并 行程 序 实现 的 
细节 时 简单 讨论 它 的 实现 。 


6. 1.5 用 OpenMP 并 行 化 基本 算法 
我 们 应 该 怎么 使 用 OpenMP 将 n 体 问题 基本 算法 中 的 任务 /粒子 映射 到 核 上 呢 ?” 让 我 们 先 研究 
一 下 串 行 程序 的 伪 代 码 ， 


for each timestep 1{ 
ff (timestep output) Print positions and velocities of particles: 
for each particie q 
Compute total force on 9; 
for each particle q 
Compute position and velocity of 9; 
} 


代码 中 的 两 个 内 层 循环 都 是 按照 粒子 进行 迭代 的 。 所 以 理论 上 ， 并 行 化 这 两 个 内 层 for 循环 会 将 
任务 /粒子 映射 到 核 上 ， 我 们 可 能 尝试 像 下 面 这 样 修改 代码 : 
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for each timestep { 
if (timestep output) Print positions and velocities of 
particles; 
# pragma omp parallel for 
for each particle q 
Compute total force on q; 
# pragma omp parallel for 
for each particle q 
Compute position and velocity of q; 
} 


事实 是 ， 这 段 代码 会 进行 很 多 次 线程 派生 和 合并 操作 ， 这 个 情况 我 们 不 会 喜欢 。 但 是 在 处 理 这 个 
问题 前 ， 让 我 们 先 来 查看 循环 本 身 : 我 们 需要 知道 是 否 存 在 由 循环 依赖 引起 的 竞争 状态 。 
在 基本 算法 中 ， 第 一 个 循环 的 形式 如 下 : 


# pragma omp parallel for 区 
for each particle q { 
forces[q][X] = forces[q][Y] = 0; 
for each particie k i1= q 
x-diff = pos[q]j[X] 一 pos[k][X]; 
y-diff = pos[q][Y] ~ pos[k][Y]; 


dist = Sqrt(X-diffxx-diff + ydiffxy-diff); 
dist-cubed = dist*dist*dist; 
forces[q][X] 一 Gxmasses[qj*masses[k]/dist_cubed * X-diff; 
forces[q][Y] 一 Gxmasses[q]*masses[k]/dist-cubed * y-diff; 
} 
} 


因为 for each particle 9 循环 的 迭代 在 线程 之 间 ， 所 以 对 于 任意 的 粒子 ag， 只 有 一 个 线程 可 以 
访问 forces[q]。 不 同 的 线程 都 可 以 访问 Pos 数组 和 mass 数组 的 相同 元 素 。 然 而 ， 在 循环 中 
这 些 数组 是 只 读 的 。 其 余 变量 用 于 内 部 循环 的 迄 代 的 临时 存储 ， 并 且 它 们 可 以 是 私有 的 。 因 此 ， 
并 行 化 基本 算法 的 第 一 个 循环 不 会 带 来 任何 竞争 状态 。 

第 二 个 循环 的 形式 如 下 : 


# pragma omp parallel for 
for each particle q { 
pos[qi[X] += delta_t*vel[q][X]; 
pos[fqj[Y] += delta-t*vel[q][Y]; 
ve1[q]j[X] += delta-t/masses[9q]j*forces[q][X]; 
vel[lq][Y] += delta-t/masses[q]j*xforces[q]j[CY]; 
} 


此 时 ,对 于 任意 的 粒子 g 只 有 一 个 线程 访问 pos [9]、vel [9q]、masses [qj] 和 forces 
[q] ,标量 只 能 读 ， 所 以 并 行 化 这 个 循环 也 不 会 带 来 任何 竞争 状态 。 
让 我 们 回 到 重复 派生 和 合并 线程 的 问题 。 在 伪 代 码 中 ， 有 


for each timestep { 
if (timestep output) Print positions and velocities of 
particles; 
# pragma omp parallel for 
for each particle q 
Compute total force on q; 
# pragma omp paralle] for 
for each particle q 
Compute position and velocity of 9; 
} 


我 们 在 并 行 奇偶 排序 算法 中 也 遇 到 了 类 似 的 问题 ( 见 5.6.2 节 )。 在 那个 例子 中 ， 我们 在 最 外 层 


的 循环 前 使 用 了 parallel 指令 ， 而 对 内 层 循环 使 用 了 OpenMP 的 for 指令 。 那 么 ， 相 同 的 策略 
在 这 里 会 不 会 起 作用 呢 ? 也 就 是 说 ， 我 们 可 不 可 以 像 下 面 这 样 修 改 代码 呢 ? 
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# pragma omp parallel 
for each timestep { 
if (timestep output) Print positions and velocities of 
particles; 
# pragma omp for 
for each particle q 
Compute total force on q; 
# pragma omp for 
for each particle q 
Compute position and velocity of q; 
} 
这 样 的 修改 会 在 两 个 for each particle 循环 上 产生 我 们 想 要 的 效果 : 同一 组 中 的 线程 会 被 这 
两 个 内 层 循 环 和 外 层 循环 的 迭代 都 使 用 到 。 然 而 ， 我 们 肯定 会 在 输出 语句 上 遇 到 问题 : 按照 现在 
的 形式 ， 每 个 线程 都 将 打印 位 置 和 速度 ， 而 我 们 只 想 要 一 个 线程 做 0 操作 。OpenMP 为 这 种 情 
况 提 供 了 single 指令 : 有 一 组 线程 执行 某 个 代码 块 ， 但 是 这 个 代码 块 中 的 某 一 部 分 只 能 被 这 些 


线程 其 中 的 一 个 执行 。 加 入 single 指令 后 ,我 们 得 到 如 下 的 伪 代 码 : 


# pragma omp parallel 
for each timestep { 
if (timestep output) { 
# pragma omp single 
Print positions and velocities of particles: 


# pragma omp for 
for each particle q 
Compute total force on q; 
# pragma omp for 
for each particle 9 
Compute position and velocity of 9; 
} 


修改 后 还 有 一 些 问题 需要 解决 ， 其 中 最 重要 的 是 当 从 一 条 语句 转向 另 一 条 语句 时 ， 可 能 带 
来 竞争 状态 。 例 如 ， 假 定 线程 0 在 线程 1 之 前 完成 了 第 一 个 for each particle 循环 ， 接 着 
它 在 第 二 个 for each particle 循环 中 更 新 了 分 配给 它 的 粒子 的 位 置 和 速度 。 显 然 ， 这 导致 
线程 1 在 第 一 个 for each particle 循环 中 使 用 了 更 新 过 的 位 置 。 然 而 ， 需 要 注意 到 : 在 每 
个 用 for 指令 并 行 化 的 结构 化 块 的 末尾 都 有 一 条 隐 含 的 路 障 ， 所 以 如 果 线 程 0 在 线程 1 前 完 
了 第 一 个 内 部 循环 ， 那 么 它 将 被 阻塞 ， 直 到 线程 1 (和 其 他 所 有 的 线程 》 完成 了 第 一 个 内 部 循 
环 ， 并且 在 其 他 所 有 的 线程 执行 完 第 一 个 内 部 循环 前 ， 它 不 会 开始 执行 第 二 个 内 部 循环 。 这 个 
机 制 也 使 得 没有 哪个 线程 执行 得 太 快 ， 以 至 于 在 其 他 线程 执行 完 第 二 个 内 层 循 环 前 就 输出 了 位 
置 和 速度 。 “ 

在 single 指令 后 也 有 隐 舍 的 路 障 ， 尽 管 在 这 个 程序 中 路 障 是 不 必要 的 。 因 为 输出 语句 不 会 
更 新 任何 内 存 地 址 ， 所 以 其 他 线程 可 以 在 输出 完成 前 继续 执行 下 一 个 迭代 。 此 外 ， 第 一 个 for 内 
层 循环 只 是 更 新 了 forces 数组 ， 所 以 它 不 会 导致 执行 输出 语句 的 线程 打印 不 正确 的 值 。 因 为 第 
一 个 内 层 循 环 末尾 的 路 障 ， 所 以 没有 一 个 线程 可 以 在 输出 结束 之 前 就 开始 执行 第 二 个 内 层 循环 更 
新 位 置 和 速度 。 因 此 我 们 可 以 用 nowait 子 句 修改 Single 指令 。 如 果 OpenMP 指令 的 实现 支持 
这 个 子 句 ， 那 么 它 仅仅 会 解除 single 指令 默认 的 路 障 。 这 个 子 句 也 适用 于 for、paral1e1l for 
和 parallel 指令 。 需 要 注意 的 是 ， 此 时 使 用 nowait 子 句 不 会 在 性 能 上 带 来 太 大 的 性 能 提升 ， 
因为 这 两 个 for each particle 循环 有 默认 的 路 障 ， 而 默认 的 路 障 不 会 允许 某 个 线程 在 其 他 线 
程 前 执行 太 多 的 语句 。 

最 后 ， 为 了 确保 程序 迭代 采取 块 划分 ， 需 要 在 每 个 for 指令 之 前 加 上 一 条 调度 子 句 ; 


# pragma omp for schedule(static, n/thread_count) 
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6. 1.6 用 OpenMP 并 行 化 简化 算法 

简化 算法 增加 了 一 个 额外 的 内 部 循环 ， 将 forces 数组 中 的 元 素 置 为 0。 如 果 对 简化 算法 采 
取 相 同 的 并 行 化 方法 ， 应 当 用 for 指令 并 行 化 这 个 循环 。 如 果 这 样 做 ， 会 发 生 什 么 昵 ? 也 就 是 
说 ， 如 果 通 过 下 面 的 伪 代 码 来 并 行 化 简化 算法 会 产生 什么 样 的 结果 ? 


# pragma omp parallel 
for each timestep | 
if (timestep output) { 
# pragma omp single 
Print positions and velocities of particles; 
} 
# pragma omp for 
for each particle q 
forces[q] = 0.0; 
# pragma omp for 
for each particle q 
Compute total force on q; 
# pragma omp for 
for each particle q 
Compute position and velocity of 9g; 


} 


因为 在 迭代 之 间 没 有 循环 依赖 ， 所 以 对 forces 数组 初始 化 的 并 行 化 没有 什么 问题 。 而 简化 算法 
对 位 置 和 速度 的 更 新 与 基本 算法 相同 ， 所 以 如 果 对 forces 的 计算 是 正确 的 ， 那 么 整个 算法 应 当 
是 正确 的 。 

上 面 的 并 行 化 会 怎样 影响 计算 forces 循环 的 正确 性 呢 ? 在 简化 算法 中 ， 循 环 有 如 下 的 
形式 : 


# pragma omp for /* Can be faster than memset */ E84] 
for each particie q { 
force-qkLX] = force-qk[Y] = 0; 
for each particle k > q0 
x-diff = pos[q][X] — posLkj[X]; 
y-diff = pos[q][Y] — pos[KkK][Y]; 
dist = sqrt(xdiffxx-diff + ydiffxy-diff); 
dist_cubed = dist*distxdist; 
force_qk[X] = Gxmasses[qj*masses[kj/dist_cubed * x.diff: 
forceqk[Y] = Gxmasses[qj*masses[Kk]/dist.cubed * y-diff; 





forces[q][X] += force-qk[X]; 

forces[q][Y] += force-qk[Y]; 

forcestk][xX] 一 force-qk[X]; 

forces[k][Y] 一 force-qk[Y]; 

) } 
和 以 前 一 样 ， 我 们 感 兴趣 的 变量 是 pos、masses 和 forces， 由 于 其 他 变量 只 会 在 单个 迭代 中 
访问 ， 因 此 是 私有 变量 。 此 外 ，pos 和 masses 数组 中 的 元 素 是 只 读 的 ， 不 能 更 新 。 因 此 ， 我 们 
只 需要 研究 forces 数组 的 元 素 。 与 基本 算法 不 同 ， 在 简化 算法 中 ， 一 个 线程 可 能 更 新 forces 
数组 中 不 属于 分 配给 该 线程 粒子 的 元 素 。 例 如 ， 假 设 有 两 个 线程 和 四 个 粒子 ， 并 且 对 粒子 采用 了 
块 划分 ， 那 么 粒子 3 所 受 的 总 作用 力 是 : 
F, = -fo -fi 一 万 
此 外 ,线程 0 要 计算 户 和 .六 ， 而 线程 1 要 计算 f。 因 此 ， 对 forces[3] 的 更 新 肯定 会 产生 竞争 
状态 。 一 般 而 言 ， 对 forces 数组 元 素 的 更 新 会 导致 竞争 状态 。 
这 个 问题 的 一 个 比较 直观 的 解决 方案 是 使 用 critical 指令 限制 对 forces 数组 元 素 的 访 

问 。 至 少 有 好 几 种 方式 可 以 达到 该 目的 ， 而 最 简单 的 方法 是 将 critical 指令 放 在 对 forces 数 
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组 更 新 之 前 : 
# _ pragma omp critical 
{ 


forces[qj[X] += force-qk[X]; 

forces[qJ[Y] += force-qk[Y]; 

forces[k][X] 一 force.qk[X]; 

forces[k][Y] ~= force-qk[Y]; 
} 


然而 ， 这 种 方式 会 使 得 对 forces 数组 元 素 的 访问 被 串 行 化 了 。 一 次 只 能 更 新 forces 数组 中 的 
一 个 元 素 ， 而 对 临界 区 的 争 用 很 有 可 能 会 导致 程序 的 性 能 急剧 地 下 降 。 见 习题 6. 3。 

另外 一 种 可 行 的 方法 是 针对 每 一 个 粒子 建立 一 个 临界 区 。 然 而 ， 如 我 们 所 看 到 的 ，OpenMP 
还 不 能 很 好 地 支持 临界 区 数目 的 变化 ， 所 以 需要 给 每 个 粒子 加 锁 ， 加 锁 后 的 代码 如 下 : 


omp-set_lock(&locks[q]); 
forces[q][X] += force_qk[X]; 
forces[q][Y] += force-qk[Y]; 
omp-unset-lock(&iocks[q]); 


Oomp_-set_-10cKk(&1IocKkKS[kK]); 
forces[k][X] 一 force-qk[X]; 
forces[k]j[Y] 一 force_qk[Y]: 
omp-unset-l1ock(&1ocks[Ik]); 


这 段 代码 假定 主线 程 已 经 创建 了 一 个 共享 锁 数组 ， 其 中 每 个 粒子 一 个 锁 ， 而 当 更 新 forces 数组 
元 素 时 ,我们 首先 要 获得 对 应 粒子 的 锁 。 尽 管 这 个 方法 已 经 比 单个 临界 区 的 性 能 提升 了 很 多 ,但 
是 还 是 比 不 上 串 行 程序 的 性 能 。 见 习题 6. 4。 

另外 一 种 可 行 的 解决 方案 是 将 对 作用 力 的 计算 分 成 两 个 阶段 。 在 第 一 个 阶段 中 ， 每 个 线程 所 进 
行 的 计算 与 错误 的 并 行程 序 中 的 计算 相同 ; 而 不 同 是 ， 现 在 计算 的 结果 都 存储 在 它 自己 的 作用 力 数 
组 中 。 然 后 ， 在 第 二 个 阶段 中 ， 与 粒子 9 相对 应 的 线程 将 加 上 被 其 他 线程 计算 出 的 该 粒子 所 受 作 用 
力 的 部 分 。 在 上 面 的 例子 中 ， 线 程 0 要 计算 -ju -f,， 而 线程 1 要 计算 -./ 。 在 每 个 线程 都 计算 出 
分 配给 它 的 作用 力 部 分 时 ， 对 应 于 粒子 3 的 线程 1 通过 将 这 两 个 值 相 加 得 到 粒子 3 所 受 的 总 作用 力 。 

让 我 们 看 看 更 大 一 些 的 例子 。 假 定 有 三 个 线程 和 六 个 粒子 。 如 果 我 们 对 粒子 采取 块 划分 ， 那 
么 第 一 个 阶段 的 计算 如 表 6-1 所 示 。 从 表 中 最 后 三 列 可 以 看 出 每 个 线程 在 计算 总 作用 力 中 的 作 
用 。 在 第 二 个 阶段 的 计算 中 ， 表 中 第 一 列 的 线程 将 对 它们 所 分 配 到 的 行 求 和 ， 以 得 到 相应 粒子 所 
受 的 作用 力 之 和 。 

需要 注意 的 是 ， 对 粒子 块 划分 时 ， 没 有 进行 什么 特别 的 修改 。 表 6-2 展示 了 在 对 粒子 采用 循 
环 划分 时 的 计算 过 程 。 将 表 6-2 和 表 6-1 相 比 ， 我 们 发 现 循环 划分 在 负载 平衡 方面 做 得 更 好 。 


表 6-1 块 划分 的 简化 算法 在 第 一 个 阶段 的 计算 





线程 粒子 线程 
0 1 2 
0 0 fo tfo +fa +fo +fos 0 0 
1 -fo t+fu tfy+fu ths 0 0 
1 2 -fo +f's fs +fa +fs 0 
3 -fu -fs -fa +fu +fss 0 
2 4 -fu -fis -fu -fu fas 
5 -fs -js -fs -fs -fas 
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表 6-2 循环 划分 的 简化 算法 在 第 一 个 阶段 的 计算 
线程 
线程 粒子 0 1 2 
0 0 fo tfo thos +fo, +fos 0 0 
1 1 -fh fa tf tj ths 0 
2 2 -fo -fi fa + + 
0 3 -fu +fy + -fs -fo 
1 4 -fou -fy -fa + -fo 
2 5 -fs -fss ~f's -fss -fs 


修改 后 的 算法 在 第 一 个 阶段 与 之 前 的 算法 相同 ， 只 是 每 个 线程 将 计算 出 的 作用 力 加 到 它 自己 
的 子 数组 10c_forces 中 ， 


# pragma omp for 
for each particle q { 
force-qk[X] = force_qk[Y] = 0; 
for each particle Kk > q { 
X-diff = pos[qj[X] — pos[k][X]; 
y-diff = pos[q][Y] 一 pos[k][Y]; 
dist = Sqrt(x-diff*x-diff + ydiff*ry_diff): 


dist-cubed = dist*distxdist; 

force_qk[X] = Gxmasses[qj*masses[k]/dist_cubed * x.diff; 
force-qk[Y] = Gxmasses[ql*masses[k]/dist_cubed * y.diff; 
Toc-forcestmy-rank][q][X] += force-qkCX]; 
1oc-forces[my-rank][q][Y] += force-qk[Y]; 
1oc-forces[my-rank][k][X] 一 force-qkLX]; 
1oc-forces[my-rank][k]cY] 一 force-qk[Y];， 


} 
} 


在 第 二 个 阶段 中 ， 每 个 线程 加 上 其 他 线程 计算 出 的 作用 力 ， 得 出 分 配给 它 的 粒子 所 受 的 总 作 
用 力 ; 
# pragma omp for 
for (q= 0; qn; q++) { 

forces[q][X] = forces{qJ[Y] = 0; 

for (thread = 0; thread < thread.count; thread++) { 
forces[q][X] += 1oc-forces[thread]j[q][X]; 
forces[q]tY] += 1oc-forces[thread][q]EY]; 


} 
} 


在 继续 其 他 工作 之 前 ,我 们 必须 确定 我 们 没有 不 小 心地 引入 了 新 的 竞争 状态 。 在 第 一 个 阶段 中 ， 
因为 每 一 个 线程 都 是 写 自己 的 子 数 组 ， 所 以 对 10c_forces 的 更 新 不 会 引 人 竞 争 状 态 。 此 外 ,在 
第 二 个 阶段 中 ， 只 有 粒子 4 的 所 有 者 线程 4 才 会 写 forces[q] ， 所 以 在 第 二 个 阶段 中 也 不 会 引入 
竞争 状态 。 最 后 ， 由 于 每 个 并 行 化 的 for 循环 的 都 有 隐 含 的 路 障 ， 因 此 我 们 不 用 担心 有 某 个 线程 
执行 得 太 快 ， 以 至 于 它 会 用 到 还 没有 被 正确 初始 化 的 变量 ; 或 者 某 个 线程 运行 得 太 慢 ， 以 至 于 它 
会 用 到 已 经 被 其 他 线程 修改 过 的 变量 。 


6. 1.7 评估 OpenMP 程序 


在 比较 基本 算法 和 简化 算法 之 前 ， 我 们 需要 确定 如 何 调度 并 行 化 的 for 循环 。 对 于 基本 算 
法 ， 我 们 看 到 任何 将 迭代 均匀 地 划分 给 线程 的 调度 都 能 够 取得 较 好 的 计算 负载 均衡 (一般 假 定 只 
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有 一 个 线程 / 核 ) 。 我 们 也 注意 到 ， 对 迭代 进行 块 划分 将 产生 比 循环 划分 更 少 的 缓存 缺失 。 因 此 ， 
我 们 认为 块 调度 是 基本 算法 最 好 的 策略 。 

在 简化 算法 中 ， 随 着 迭代 的 增加 ， 第 一 阶段 对 作用 力 的 计算 逐渐 减少 ， 因 此 循环 划分 能 更 好 
地 将 计算 均等 地 分 配给 每 个 线程 。 在 剩 下 的 并 行 for 循环 中 (对 10c_forces 数组 的 初始 化 、 
作用 力 的 第 二 阶段 计算 、 位 置 和 速度 的 更 新 ) 每 次 迭代 所 要 做 的 工作 量 大 致 相同 。 因 此 ， 断 章 取 
义 地 看 ， 这 些 循环 采用 块 划分 时 性 能 会 更 好 。 然 而 ， 对 一 个 循环 的 调度 会 影响 另外 一 个 循环 的 性 
能 (见习 题 6.10)， 所 以 如 果 对 一 个 循环 采用 了 循环 调度 ， 而 对 其 他 循环 采取 块 调度 可 能 会 降低 
程序 的 性 能 。 

表 6-3 显示 了 在 这 些 策略 下 ， 没 有 进行 WO 操作 的 体 程序 在 我 们 系统 上 的 性 能 。 在 测试 中 ， 
有 400 个 粒子 和 1000 个 时 间 点 。"“ Default Sched” 列 给 出 了 当 所 有 的 内 部 循环 都 采用 默认 块 调度 
时 ，OpenMP 简化 算法 的 运行 时 间 。“Forces Cyclice” 列 给 出 了 第 一 阶段 作用 力 计算 采用 循环 调度 ， 
而 其 他 内 部 循环 采用 默认 调度 时 的 程序 运行 时 间 。“ All Cyclic” 列 给 出 了 所 有 的 内 部 循环 都 采用 
循环 调度 时 ， 程 序 的 运行 时 间 。 串 行 算法 的 运行 时 间 与 单线 程 运 行 算法 的 时 间 差 小 于 1% ， 所 以 
没有 在 表 6-3 中 列 出 。 

表 6-3 用 OpenMP 并 行 化 n 体 问题 算法 的 运行 时 间 











线程 数 基本 算法 简单 算法 简单 算法 简单 算法 
Default Sched Forces Cyciic All Cyclic 

1 7.71 3.90 3.90 3.90 

2 3.87 2.94 1.98 2.0] 

4 1.95 1.73 1.01 1.08 

8 0. 99 0. 95 0. 54 0. 61 


注意 ， 使 用 多 个 线程 运行 简化 算法 时 ， 默 认 调 度 比 循环 调度 的 运行 时 间 要 长 50% ~75%。 在 
这 种 情况 下 ， 显然 使 用 循环 调度 比 使 用 默认 调度 更 好 ， 负 和 载 平 衡 所 带 来 的 性 能 提升 可 以 较 好 地 弥 
补 缓存 缺失 带 来 的 开销 。 

对 于 由 两 个 线程 运行 的 简化 算法 ， 只 是 将 作用 力 计 算 的 第 一 个 循环 采用 循环 法 的 调度 策略 与 
所 有 的 循环 都 采用 循环 法 的 调度 策略 相 比较 ， 性 能 相差 不 大 。 然 而 ， 当 增加 线程 数目 后 ， 对 所 有 
循环 都 采用 循环 调度 策略 的 性 能 开始 下 降 。 在 这 个 例子 中 ， 当 使 用 更 多 的 线程 运行 程序 时 ， 由 负 
载 不 均衡 引起 的 开销 要 小 于 伪 共 享 引起 的 开销 。 

最 后 ， 基 本 算法 比 在 作用 力 计算 时 采用 循环 调度 的 简化 算法 需要 多 花费 两 倍 的 运行 时 间 ， 所 
以 当 有 和 较 大 的 内 存 空间 可 用 时 ， 简 化 算法 显然 要 更 好 一 些 。 然 而 ,为 了 存储 总 作用 力 ， 简 化 算法 
额外 需要 thread_count 倍 的 内 存 空间 ， 所 以 当 和 粒子 的 数目 相当 大 时 ， 使 用 简化 算法 变 得 不 
可 行 。 
6. 1.8 用 Pthreads 并 行 化 算法 

用 Pthreads 并 行 化 n 体 问题 的 两 个 算法 与 用 OpenMP 并 行 化 这 两 个 算法 十 分 相似 ， 不 同 之 处 
仅 在 于 实现 的 细节 上 ， 所 以 我 们 将 指出 Pthreads 与 OpenMP 在 实现 上 主要 的 不 同 ， 而 不 是 重复 我 
们 之 前 的 讨论 ， 同 时 我 们 也 会 涉及 两 者 之 间 一 些 重要 的 相似 之 处 。 

。 在 Pthreads 中 ， 缺 省 情况 下 局 部 变量 是 私有 的 ， 而 所 有 的 共享 变量 都 是 全 局 的 。 

e Pthreads 中 的 主要 数据 结构 与 OpenMP 中 的 数据 结构 相同 : 向 量 由 二 维 double 型 数组 表 

示 ， 而 粒子 的 质量 、 位 置 和 速度 都 存储 在 结构 体 中 。 粒 子 所 受 的 作用 力 存储 在 向 量 数 
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组 中 。 
。 启动 Pthreads 基本 上 与 启动 OpenMP 相同 : 主线 程 获取 命令 行 参数 ,分配 和 初始 化 主要 的 
数据 结构 。 


Pthreads 实现 与 OpenMP 实现 的 不 同 主要 体现 在 对 内 部 循环 并 行 化 的 细节 上 。 因 为 Pthreads 
中 没有 类 似 于 parallel for 的 指令 ， 所 以 必须 显 式 地 决定 哪个 循环 变量 对 应 于 线程 的 
计算 。 为 了 方便 ， 编 写 函 数 Loop_schedule 来 决定 : 

。 循环 变量 的 初始 值 

。 循环 变量 的 最 终 值 

。 循环 变量 的 增 量 
该 函数 的 输入 是 : 

。 调用 该 函数 的 线程 编号 

。 线程 的 数目 

e 总 的 迭代 数 

。 指明 采用 块 调度 还 是 循环 调度 的 参数 

Pthreads 与 OpenMP 实现 的 另外 一 个 不 同 之 处 在 于 它们 的 路 障 。OpenMP 的 parallel for 
指令 有 隐 含 的 路 障 ， 而 这 是 十 分 重要 的 。 例 如 ， 我 们 不 想 某 个 线程 在 所 有 线程 完成 对 作 
用 力 的 计算 之 前 就 开始 更 新 位 置 ， 因 为 它 可 能 会 使 用 旧 的 作用 力 数 据 ， 而 其 他 线程 则 会 
使 用 旧 的 位 置信 息 。 如 果 在 Pthreads 实现 中 ,简单 地 按照 线程 划分 循环 的 迭代 ， 那 么 在 内 
部 for 循环 的 末尾 不 会 有 路 障 ， 由 此 会 产生 竞争 状态 。 因 此 ， 必 须 在 内 部 循环 可 能 产生 
竞争 状态 的 地 方 显 式 地 使 用 路 障 。Pthreads 标准 中 包含 了 路 障 , 但 是 有 些 系统 并 没有 实现 
它 ， 所 以 我 们 定义 了 一 个 函数 ， 通 过 Pthreads 条 件 变量 实现 路 障 。 细 节 请 见 4. 8. 3 节 。 


6. 1.9 用 MPI 并行 化 基本 算法 

将 与 单个 粒子 相关 的 计算 视 为 一 个 复合 任务 ， 使 得 用 MPI 并 行 化 基本 算法 十 分 直观 。 任 务 之 
间 的 通信 仅 发 生 在 计算 作用 力 时 ， 每 个 任务 /粒子 需要 获取 其 他 粒子 的 位 置 和 质量 。MPI_A11 - 
gather 函数 就 是 专门 为 这 种 情况 设计 的 ， 该 指令 为 每 个 线程 从 其 他 线程 收集 同样 的 信息 。 已 经 
发 现 : 采用 块 划分 时 程序 的 性 能 最 好 ， 所 以 采用 块 划 分 将 粒子 映射 到 进程 上 。 

在 共享 内 存 的 实现 中 ,我 们 将 与 单个 粒子 相关 的 信息 (质量 、 位 置 、 速 度 ) 放 在 一 个 结构 体 
中 。 然 而 ， 如 果 在 MPI 的 实现 中 使 用 这 个 数据 结构 ， 就 需要 在 调用 MPI_A11gather 时 使 用 派生 
数据 类 型 ， 而 使 用 派生 数据 类 型 的 通信 往往 比 使 用 基本 MPI 数据 类 型 的 通信 慢 。 因 此 ， 有 必要 使 
用 单独 的 数组 分 别 存储 质量 、 位 置 和 速度 ， 并 且 还 需要 将 所 有 粒子 的 位 置 存储 在 一 个 单独 的 数组 
中 。 如 果 每 一 个 进程 有 足够 的 内 存 ， 那 么 这 些 变量 都 可 以 存储 在 不 同 的 数组 中 。 实 际 上 ， 如 果 内 
存 足 够 ， 每 个 进程 可 以 存储 整个 质量 数组 ， 因 为 质量 不 会 改变 ， 而 且 它 们 的 值 只 会 在 初始 化 的 时 
候 传递 。 

另 一 方面 ， 如 果 内 存 空 间 有 限 ， 那 么 有 些 MPI 集合 通信 可 以 使 用 “in-place” 选 项 。 在 我 们 
的 例子 中 ， 假 设 数组 pos 是 可 以 存储 个 粒子 的 位 置 ，vect_mpi_t 是 一 个 存储 两 个 连续 doub- 
1e 型 的 MPI 数据 类 型 ，n 可 以 被 comm_sz 整除 , 且 1oc_n=n/omm_sz。 那 么 ， 将 局 部 的 位 置 
信息 存储 在 独立 的 数组 1oc_pos 中 ， 可 以 调用 MPI_A11gather 从 进程 中 收集 所 有 的 位 置信 息 ， 


MPI_Al1lgather(loc.pos, loc-n, vect_mpi_t, 
pos. locn, vect.mpi_t, comm); 


如 果 不 能 为 1oc_pos 提供 额外 的 存储 空间 ， 则 可 以 让 进程 g 将 它 的 本 地 位 置 存储 在 pos 中 的 第 g 
个 位 置 。 也 就 是 说 ， 每 个 进程 的 本 地 位 置 应 该 存储 在 每 个 进程 的 pos 数组 的 相应 块 中 。 
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Process0: pos[0]，pos[1]，. . .， pos[1oc-n-1] 

Process 1]: pos[locn], pos[locn+l], . . .， pos[locn + 10c-n-1] 

Processq: Ppos[q*1l0oc-n], pos[q*ioc-nt+l], . . .， pos[q#x1oc-n + 
1oc_n—1] 


通过 这 种 方式 初始 化 每 个 进程 的 pos 数组 ， 就 可 以 按照 如 下 方式 调用 MPI_A11gather: 


MPI_AT1gather (MPI_IN.PLACE, loc-n, vect_mpi_t, 
pos, locn, vect_mpi_t, comm); 


在 这 个 调用 中 ， 和 忽略 第 一 个 10c_n 和 vect_mpi_t 参数 ， 然 而 保留 它们 可 以 增加 程序 的 可 读 性 。 
在 给 出 的 程序 中 ， 对 数据 结构 做 出 以 下 设 定 : 
。 每 个 进程 存储 整个 包含 所 有 粒子 质量 的 全 局 数组 。 
。 每 个 进程 仅 使 用 一 个 n 个 元 素 的 数组 来 存储 位 置信 息 。 
。 每 个 进程 通过 指针 10c_pos 指向 pos 的 起 始 地 址 。 因 此 ， 对 于 进程 0,，1ocal_pos = 
pos; 对 于 进程 1，10cal_pos =pos 二 10c_n， 以 此 类 推 。 
根据 这 些 设 定 ， 按 照 程序 6-2 所 示 的 伪 代 码 实 现 基本 算法 。 进 程 0 读 取 并 广播 命令 行 参数 ， 同 时 它 读 取 输 
人 并 打印 结果 。 在 第 一 行 ， 进 程 0 需要 传递 输入 ， 因 此 Get input data 可 以 按 如 下 方法 实现 ， 


1f (my-rank == 0) { 
for each particle 
Read masses[particle], pos[particle], velfparticlel; 
} 
MPI_Bcast(masses, n, MPI_DOUBLE, 0, comm); 
MPI_Bcast(pos, n, vect_mpi.t, 0, comm); 
MPpI.Scatter(vel, loc.n, vect_mpit, locvel, locn, vect.mpi.t, 0, 
Comm ) ; 


所 以 ,进程 0 将 读 取 所 有 的 初始 条 件 ， 并 存 人 元 数组 中 。 因 为 在 每 个 进程 中 ， 要 存储 所 有 粒子 

的 质量 ， 所 以 masses 将 被 广播 。pos 也 将 被 广播 ， 因 为 每 个 进程 需要 在 主 for 循环 进行 第 一 个 

阶段 的 作用 力 计算 ， 需 要 全 局 的 位 置 数 组 。 然 而 ， 速 度 仅 在 本 地 使 用 ， 用 来 更 新 位 置 和 速度 ， 所 
以 只 是 把 vel 散布 到 各 个 进程 中 。 


程序 6-2 1 体 问 题 基本 算法 的 MPI 实现 伪 代 三 











1 Get input data: 

2 for each timestep { 

3 if (timestep output) 

4 Print positions and velocities of particles: 
5 for each 10cal particle loc-q 

6 Compute total force on 10C-9; 

7 for each local particle loc.q 

8 Compute position and velocity of loc.q; 

9 Allgather local positions into global pos array: 
10 

11 Print positions and velocities of particles; 





注意 ， 在 程序 6-2 的 第 9 行 外 部 for 循环 的 末尾 ， 收 集 更 新 过 的 位 置信 息 ， 这 确保 了 位 置信 
息 在 第 4 行 和 第 11 行 可 以 被 访问 。 如 果 要 打印 每 一 个 时 间 点 的 结果 ， 计 算 作用 力 之 前 需要 先 调 
用 MPI_A11gather， 并 让 进程 0 收集 所 有 粒子 的 位 置信 息 ， 那 么 可 以 消除 一 个 代价 较 高 的 集合 
通信 调用 。 当 外 层 for 循环 按照 如 上 所 述 组 织 时 ， 可 以 按照 下 面 的 伪 代 码 实现 输出 : 


Gather velocities onto process 0; 
if (my-rank == 0) { 
Print timestep; 
for each particle 
Print pos[fparticle] and velfparticle] 
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6. 1. 10 用 MPI 并行 化 简化 算法 

直接 实现 简化 算法 会 十 分 复杂 。 在 计算 作用 力 前 ， 每 个 进程 需要 收集 位 置 的 子 集 ， 而 在 作用 
力 计 算 后 ， 每 个 进程 将 传递 它 计 算出 的 作用 力 ， 并 与 它 接收 到 的 作用 力求 和 。 图 6-6 显示 了 在 三 
个 进程 、 六 个 粒子 ， 并 使 用 块 划分 将 粒子 分 配给 进程 的 条 件 下 ， 进 程 之 间 的 通信 情况 。 可 以 预 
见 ， 当 采用 循环 调度 时 ， 通 信 会 变 得 更 加 复杂 (见习 题 6.13)。 当 然 这 些 通 信和 是 可 以 实现 的 。 然 


而 ， 除 非 在 实现 时 相当 小 心 ， 否 则 程序 会 变 得 很 慢 。 
进程 0 进程 1 进程 2 
粒子 0,1 2,3 4,5 


计算 
作用 力 





更 新 位 置 
和 速度 


C2 


图 6-6 nn 体 问题 简化 算法 可 能 的 MPI 实现 中 的 通信 


幸运 的 是 ， 可 以 采用 另外 一 种 更 加 简单 的 方式 一 一 称 为 环形 传递 (ring pass) 的 通信 结构 。 
在 环形 传递 中 ， 进 程 可 以 看 做 是 用 一 个 环 相互 连接 ( 见 图 6-7)。 进 程 0 直接 与 进程 1 和 进程 
comm_sz -1 通信， 而 进程 1 与 进程 0 和 进程 2 通信 ， 以 此 类 推 。 
在 环形 传递 中 的 通信 分 阶段 进行 ， 在 每 一 个 阶段 中 ， 每 个 进程 向 Co) C1) 
标号 较 低 的 相 邻 进程 传送 数据 ， 从 标号 较 高 的 进程 接收 数据 。 因 
此 ， 进 程 0 可 以 向 进程 comm_sz -1 传递 数据 ， 从 进程 1 接收 数 
据 ; 进程 1 从 进程 2 接收 数据 ， 而 向 进程 0 传递 数据 ， 以 此 类 推 。 () (@) 
总 的 来 说 ， 进 程 g 向 进程 (9 -1 + comm_sz)% comm_sz 传递 数 
据 ， 从 进程 (9+1)% comm_sz 接收 数据 。 图 6-7 进程 组 成 的 环 
通过 在 环 结 构 上 重复 地 接收 和 传递 数据 ， 可 以 使 得 每 个 进程 
都 能 够 获取 所 有 粒子 的 位 置信 息 。 在 第 一 个 阶段 ， 每 个 进程 都 向 标号 较 小 的 相 邻 进程 传递 分 配给 
它 的 粒子 的 位 置信 息 ， 从 标号 较 高 的 相 邻 进程 接收 分 配给 该 进程 的 粒子 的 位 置信 息 。 在 下 一 -个 阶 
段 中 ， 每 个 进程 都 将 传递 在 第 一 个 阶段 接收 到 的 位 置信 息 。 这 个 过 程 会 重复 comm_sz -1 次 , 直 
到 所 有 的 进程 都 获知 所 有 粒子 的 位 置信 息 。 图 6-8 显示 了 在 有 4 个 进程 、8 个 粒子 ， 采 取 循 环 划 
分 的 情况 下 ， 三 个 阶段 的 情况 。 、 





阶段 1 阶段 2 阶段 3 


S3， $7 


$1s $s $2 Ss 





So $4 


图 6-8 位置 信息 在 环 上 的 传递 
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当然 ， 简 化 算法 的 好 处 是 ， 由 于 fi, = -f;， 所 以 我 们 不 需要 计算 所 有 粒子 对 g 和 上 之 间 的 作用 
力 。 为 了 利用 这 一 点 ， 在 早先 使 用 的 简化 算法 中 ， 粒 子 间 的 作用 力 可 以 分 为 加 到 粒子 总 作用 力 中 
去 的 和 从 粒子 总 作用 力 中 减 去 的 两 种 。 例 如 ， 假 设 有 6 个 粒子 ,那么 简化 算法 将 按 如 下 方法 计算 
粒子 3 所 受 的 总 作用 力 : 

F, =-fo -fs -fa +fyu + hs 

环形 传递 方式 计算 作用 力 的 关键 是 : 从 总 作用 力 中 减 去 的 作用 力 是 由 其 他 任务 /粒子 计算 的 ， 而 
加 到 总 作用 力 中 的 作用 力 由 该 任务 /粒子 本 身 计 算 。 因 此 ， 粒 子 3 所 受到 的 粒子 间 的 作用 力 的 计 
算 任 务 分 配 如 下 : 


作用 力 fo fs fo fa fss 
任务 /粒子 0 1 2 3 3 





所 以 ， 假 设 在 环形 传递 中 ， 不 仅 传 递 10c_n =n /comm_sz 个 粒子 的 位 置信 息 ， 同 时 也 传递 10c_ 
n 个 粒子 的 作用 力 ， 那 么 在 每 一 个 阶段 ， 一 个 进程 可 以 : 

(1) 计算 分 配给 它 的 粒子 与 它 接收 到 位 置信 息 的 粒子 间 的 作用 力 。 

(2) 一 旦 粒子 间 的 作用 力 被 计算 出 来 了 ， 进 程 就 可 以 将 这 些 作 用 力 加 到 相应 粒子 的 局 部 作用 
力 数组 中 ， 并 且 减 去 接收 到 的 粒子 间 的 作用 力 。 
更 多 细节 和 可 行 方案 请 见 [15，34]。 

现在 研究 当 有 4 个 粒子 、2 个 进程 ， 并 且 采 用 循环 法 分 配 粒子 时 计算 是 如 何 进行 的 〈 见 表 6-4) 。 
1oc_pos 数组 和 10c_forces 数组 分 别 存 储 的 是 局 部 的 位 置 和 作用 力 信息 ， 这 些 信 息 不 会 在 进 

程 之 间 传 递 。 需 要 在 进程 之 间 传 递 的 数组 是 tmp_pos 和 tmp_forces。 


表 6-4 在 环形 传递 中 的 作用 力 计 算 








时 间 变量 进程 0 进程 1 
开始 loc_pos So, $2 3 ，83 
loc_forces 0,0 0,0 
tmp_pos So, $2 S11, Ss 
tmp_forces 0, 0 0, 0 
作用 力 计算 后 loc_pos So, $2 $1, 5 
loc_forces fm, 0 fa,0 
tmp_pos So, Sz SI, Sy 
tmp_forces 0, -fo 0, -fi 
第 一 次 通信 后 oC_pos S$0, $2 Sl, S$ 
1oc_forces fu 0 fi, 0 
tmp_pos Si $y So, S82 
tmp_forces 0, -fs 0, -fo 
作用 力 计算 后 locpos 交际 
10c_forces Jo +foz +fo, fa fiit+f'3, 0 
tmp_pos $1, Sy So, $2 
tmp_forces -fo, -fo -fi -fs 0, -fo -fi, 
第 二 次 通信 后 loc_pos So, $2 $1 Sa 
loc_ forces fo +t fo + fa, fa f+fi, 0 
tmp_pos So, $2 S1» B53 
tmp_forces 0, -fo -f', -fu, -fo -f' -fs 
作用 力 计 算 后 loc_pos So, $2 $1, $a 
loc_forces for tfoz +fos, -fo -fi +fos -fo tfo -fi -fa 
tmp_pos So, $2 Sl, $3 
tmp_forces 0, -fo -f, -fo -fo -fs -fs 
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在 环形 传递 开始 前 ， 存 储 位 置 的 数组 都 用 本 地 粒子 的 位 置 进行 初始 化 ， 且 存储 作用 力 的 数组 
中 的 元 素 都 置 为 0。 在 环形 传递 开始 前 ， 每 个 进程 首先 要 计算 分 配给 它 的 粒子 间 的 作用 力 。 进 程 
0 计算 疡 ， 进 程 1 计算 及,。 这 些 值 将 加 到 1oc_forces 中 对 应 的 位 置 ， 并 从 tmp_forces 合适 
的 位 置 中 减 去 这 些 值 。 

现在 两 个 进程 相互 交换 tmp_pos 和 tmp_forces， 并 计算 分 配给 它们 的 粒子 和 接收 到 的 粒 
子 间 的 作用 力 。 在 简化 算法 中 ， 标 号 较 低 的 任务 /粒子 负责 计算 。 进 程 0 计算 矿 、 记 和 . 户 ， 而 进 
程 1 计算 fi,。 与 之 前 一 样 ， 计 算出 的 作用 力 加 到 1oc_forces 合适 的 地 址 中 ， 并 从 tmp_forces 
合适 的 地 址 中 减 去 。 

为 了 完成 算法 ， 需 要 在 最 后 交换 tmp 数组 。 每 个 进程 收 到 已 更 新 的 tmp_forces 后 ， 可 以 
做 一 个 简单 的 向 量 求 和 运算 


loc-forces += tmp.-forces 


以 完成 计算 。 
程序 6-3 n 体 问题 简化 算法 的 MPI 实现 伪 代 码 
1 source = (my-rank + 1) % comm_sz: 
2 dest = (my-rank — 1 + Comm-sz) % comm-_sz: 
3 Copy loc-pos into tmp.pos; 
4 1oc-forces = tmp_forces = 0; 
5 
6 Compute forces due to interactions among local particles; 
7 for (phase = 1; phase < comm._sz; phase++) { 
8 Send current tmp_pos and tmp_forces to dest; 
9 Receive new tmp-pos and tmp-forces from source; 
10 /* Owner of the positions and forces we’'re receiving */ 
11 owner = (my-rank + phase) % comm_sz; 
12 Compute forces due to interactions among my particles 
13 and owner’s particles; 


} 
15 Send current tmp-pos and tmp-forces to dest: 
16 Receive new tmp-pos and tmp-forces from source:; 








因此 ， 我 们 可 以 使 用 环形 传递 按照 程序 6-3 中 的 伪 代 码 实现 简化 算法 中 对 作用 力 的 计算 。 需 
要 注意 的 是 : 按照 MPI 的 说 明 ， 在 第 8 行 、 第 9 行 、 第 15 行 、 第 26 行 使 用 MPI_Send 和 MPI_ 
Recyv 接收 和 发 送信 息 是 不 安全 的 ， 因 为 当 系 统 没 有 足够 的 缓存 时 ， 它 们 会 被 挂 起 。 在 这 种 情况 
下 ，MPI 提供 了 MPI_Sendrecv 和 MPI_Sendrecv_rep1ace。 因 为 使 用 了 相同 的 内 存 存 储 传 递 
的 数据 和 接收 的 数据 ， 所 以 可 以 使 用 MPI_Sendrecv_replace。 

开启 一 条 消息 的 时 间 开 销 是 比较 大 的 ， 所 以 可 以 通过 使 用 一 个 数组 同时 存储 tmp_pos 和 


tmp_forces 的 方式 降低 通信 代价 。 例 如 ， 可 以 为 数组 tmp_data 分 配 可 以 存储 2x 10c_n 个 vec-_ 


t 类 型 对 象 的 空间 ， 其 中 前 10c_n 个 位 置 存 放 tmp_pos， 而 后 10c_n 个 位 置 存放 tmp_forces， 
然后 让 指针 tmp_pos 和 tmp_forces 分 别 指向 tmp_data[0] 和 tmp_data[ loc_n]。 

在 实现 第 12 行 和 第 13 行 对 作用 力 的 计算 时 ， 主 要 困难 是 决定 当前 进程 是 否 要 计算 分 配给 该 
进程 的 粒子 和 接收 到 位 置信 息 的 粒子 间 的 相互 作用 力 。 如 果 研 究 简化 算法 (程序 6-1) ， 任 务 / 粒 


子 负责 计算 f(g <r)。 然 而 ,，10c_pos 和 tmp_pos (或 者 同时 包含 tmp_pos 和 tmp_ 


forces 的 数组 ) 使 用 的 是 局 部 下 标 ， 而 不 是 全 局 下 标 。 也 就 是 说 ， 当 访问 10c_pos 中 的 一 个 
元 素 时 ， 使 用 的 下 标 在 0~ 10c_n -1 内 ， 而 不 是 在 0~n -1 内 ， 所 以 我 们 试图 按照 如 下 的 伪 代 码 





日 实际 上 ， 在 最 后 的 通信 中 我 们 仅 需 要 交换 tmp_forces。 
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实现 对 作用 力 的 计算 : 


for (1oc-partl = 0; Toc-partl < Toc.n-l; 10c-part1l++) 
for (loc.part2 = loc.partl+1l; 10C-part2《 10C-n; 10C-part2++) 
Compute-force(10c-pos[1oc-part1]，masses[10oC-partl]， 
tmp-pos[1oc-part2]，masses[10C-part2]， 
1oc-forces[1oc-part1]，tmp-forces[1oc-part2]); 


我 们 会 碰 到 几 个 问题 。 首 先 ，masses 显然 是 -一 个 全 局 数组 ， 而 我 们 用 局 部 下 标 访问 它 的 元 
素 ; 其 次 ，1ocal_part1l 和 1ocal_part2 的 相对 大 小 并 不 能 决定 是 否 应 该 计算 它们 之 间 的 作 
用 力 ， 需 要 用 全 局 下 标 来 决定 作用 力 的 计算 。 例 如 ， 有 四 个 粒子 ， 两 个 进程 ， 前 面 的 代码 由 进程 
0 执行 ,那么 当 1ocal1_part1l =0 时 ， 内 部 循环 将 从 1ocal_part2 =1 开始 而 跳 过 10cal_ 
part2 =0; 然而 ， 如 果 采 用 的 是 循环 调度 ，1ocal_partl =0 对 应 的 是 全 局 粒子 0，1ocal_ 
part2 =0 对 应 的 是 全 局 粒子 1， 则 应 该 计算 这 两 个 粒子 间 的 相互 作用 力 。 

显然 ， 问 题 在 于 我 们 使 用 了 局 部 粒子 下 标 ， 而 不 是 全 局 粒子 下 标 。 因 此 ， 在 采用 循环 调度 
时 ,我 们 可 以 修改 代码 ， 使 得 循环 按照 全 局 粒子 下 标 迭 代 ; 


for (locpartl = 0, glb.partl = my-rank; 
1oc-part1《 loc.n~l: 
loc-partl++, glb_partl += comm.sz) 
for (gl1b-part2 = First.index(glb_partl, my-rank,. owner, comm._sz), 

1oc-part2 = Global.to_local(glb_part2, owner, 10c-n); 

loc-part2 «< loc.n: 

loc-.part2++, glb_part2 += comm-_sz) 

Compute.force(loc.pos[loc-part1], masses[glb_part1], 
tmp-pos[1loc.part2], masses[glb_part2], 
1oc-forces[10c-part1]，tmp-forces[10c-part2]); 


函数 First_index 按照 下 面 的 条 件 确定 全 局 下 标 g1b_part2 : 

(1) 粒子 91b_part2 分 配给 标号 为 owner 的 进程 。 

(2) glb_partl <glb_part2 <glb_partl +comm_sz。 
函数 G10ba1_to_10cal 将 一 个 全 局 粒子 下 标 转 换 为 一 个 局 部 粒子 下 标 ， 函 数 Compute_force 
将 计算 两 个 粒子 间 的 相互 作用 力 。 我 们 已 经 知道 如 何 实现 Compute_force。 对 这 两 个 函数 的 实 
现 请 见习 题 6. 15 和 习题 6. 16。 


6. 1. 11 MPI 程序 的 性 能 

表 6-5 说 明了 在 800 个 粒子 、1000 个 时 间 点 的 条 件 下 ， 两 个 n 体 程序 在 Infiniband 连接 的 集群 
上 的 运行 时 间 。 所 有 的 计时 都 是 在 一 个 集群 节点 运行 一 个 进程 的 情况 下 得 出 的 。 串 行程 序 的 运行 
时 间 与 单 进程 MPI 程序 的 运行 时 间 的 差 在 1% 以内， 所 以 表 6-5 中 没有 列 出 。 

尽管 基本 算法 达到 了 更 好 的 效率 ， 但 显然 简化 算法 的 性 能 远 远 好 于 基本 算法 。 例 如 ， 基 本 算 
法 在 16 个 节点 上 的 效率 是 0. 95 ， 而 简化 算法 在 16 个 节点 上 的 性 能 大 约 只 是 0.70。 


表 6-5 站 体 问题 算法 MPI 实现 的 性 能 (时间: 秒 ) 








进程 数 基本 算法 简化 算法 
1 17.30 8. 68 
2 8. 65 4. 45 
4 4. 35 2.30 
8 2.20 1.26 


16 1.13 0.78 
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表 6-6 n 体 问题 算法 OpenMP 和 MPI 实现 的 性 能 (时 间 : 秒 ) 











、 OpenMP MPI 
进程 /线程 数 基本 算法 简化 算法 基本 算法 简化 算法 
1 15, 13 8. 77 17.30 8. 68 
2 7.62 4. 42 8. 65 4. 45 
4 3, 85 2. 26 4.35 2.30 


需要 强调 的 一 点 是 ， 简 化 MPI 算法 比 基 本 MPI 算法 能 更 有 效 地 利用 内 存 。 基 本 算法 在 每 个 进 
程 中 都 要 为 n 个 位 置信 息 提 供 存储 空间 ， 而 简化 算法 只 需要 为 n/comm_sz 个 位 置 和 n/comm_sz 
个 作用 力 提供 额外 的 存储 空间 ， 所 以 基本 算法 的 每 个 进程 大 约 要 比 简化 算法 的 进程 多 需要 comm/ 
2 们 的 存储 空间 。 当 n 和 comm_sz 十 分 大 时 ， 这 个 因素 可 以 决定 是 只 使 用 到 系统 的 主 存 还 是 不 得 
不 使 用 二 级 存储 来 实现 模拟 计算 。 | 

进行 性 能 测试 的 集群 的 每 个 节点 有 4 个 核 ， 所 以 可 以 比较 用 OpenMP 实现 的 性 能 和 用 MPI 实 
现 的 性 能 ( 见 表 6-6)。 我 们 可 以 看 到 基本 OpenMP 程序 比 基 本 MPI 程序 要 快 很 多 ， 这 个 结果 是 显 
然 的 ， 因 为 MPI1_A11gather 的 开销 很 大 。 然 而 ， 令 人 惊讶 的 是 ， 简 化 的 MPI 程序 的 性 能 与 
OpenMP 程序 的 性 能 相当 。 

现在 分 别 查看 OpenMP 程序 和 MPI 程序 运行 时 所 需要 的 内 存 。 假 设 有 个 粒子 , p 个 进程 
或 线程 ， 每 一 种 解决 方案 都 会 为 局 部 位 置信 息 和 局 部 速度 信息 分 配 相同 的 存储 空间 。MPI 程序 
为 每 个 进程 分 配 个 double 型 的 存储 空间 存放 质量 ，4n/p 个 double 型 的 存储 空间 存放 tmp_ 
pos 和 tmp_forces 数组 ， 所 以 除了 局 部 的 位 置信 息 和 速度 信息 外 ，MPI 程序 为 每 个 进程 中 还 
要 存储 : 

n+4dn/p 
个 double 型 变量 。OpenMP 程序 总 共 要 2pn +2n 个 double 型 变量 存储 作用 力 ，n 个 double 型 变 
量 存储 质量 ， 所 以 除了 局 部 的 位 置 和 速度 信息 外 ， 对 于 每 一 个 线程 ，OpenMP 程序 还 需要 

3n/p + 2n 
个 double 型 变量 的 存储 空间 。 因 此 OpenMP 程序 比 MPI 程序 多 

n—n/p 

个 double 型 变量 用 于 存储 局 部 变量 。 换 句 话说， 如 果 nn 很 大 ，OpenMP 程序 对 局 部 存储 空间 的 需 
求 远 远大 于 MPI 程序 。 所 以 ， 对 于 给 定 的 线程 数 或 进程 数 ，MPI 程序 可 以 比 OpenMP 程序 进行 更 
大 规模 的 模拟 。 当 然 ， 出 于 硬件 方面 的 考虑 ， 可 以 使 用 的 MPI 进程 数目 很 有 可 能 比 可 以 使 用 的 
OpenMP 线程 数目 要 大 ， 所 以 MPI 程序 可 以 进行 的 最 大 规模 的 模拟 比 OpenMP 程序 可 以 进行 的 最 
大 规模 的 模拟 大 得 多 。MPI 版 本 的 简化 算法 比 其 他 版 本 的 可 扩展 性 更 好 ， 环 形 传递 算法 为 n 体 问 
题 的 设计 带 来 了 突破 。 


6.2 树 形 搜索 

许多 问题 可 以 归纳 为 树 形 搜索 问题 。 举 个 简单 的 例子 ， 考 虑 旅行 商 (Traveling Salesperson 
Froblem，TSP) 问题 。 在 TSP 问题 中 ， 旅 行商 有 一 个 要 访问 城市 的 列表 和 每 两 个 城市 之 间 旅 行 的 
开销 ， 他 要 访问 每 个 城市 仅 一 次 ， 并 且 回 到 出 发 的 城市 。 现 在 的 问题 是 如 何 使 这 个 任务 的 开销 最 
小 。 一 条 以 出 发 城市 为 起 点 、 访 问 每 个 城市 仅 一 次 ， 并 且 以 出 发 城市 为 终点 的 路 径 叫 做 回路 ， 
TSP 问题 想 要 寻找 的 是 代价 最 小 的 回路 。 

不 幸 的 是 ， 旅 行商 问题 已 被 证 明 是 NP 完全 (NP-complete) 问题 。 换 名 话说， 目前 还 没有 哪 
一 个 已 知 的 算法 可 以 比 穷 举 法 更 好 地 解决 该 问题 。 穷 举 法 意味 着 穷尽 每 一 种 可 行 的 方案 ， 然 后 找 
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到 最 优 方案 。TSP 问题 可 能 的 解决 方案 的 数目 随 着 城市 数目 的 增加 成 指数 级 增长 。 例 如 ， 在 4 个 

城市 的 TSP 问题 中 添加 一 个 城市 ， 就 会 增加 n -1 倍 的 可 行 解 。 因 此 ， 尽 管 对 于 4 个 城市 的 TSP 

问题 只 有 6 个 可 行 解 ， 但 5 个 城市 的 TSP 问题 却 有 4 x6 =24 个 可 行 解 ，6 个 城市 时 有 5 x24 = 120 

个 可 行 解 ，7 个 城市 有 6 x 120 =720 个 可 行 解 ， 依 此 类 推 。 实 际 上 ，100 个 城市 的 可 行 解 的 数目 甚 
至 比 宇宙 中 原子 的 数目 还 要 多 。 

如 果 为 TSP 问题 找到 一 种 比 穷 举 法 更 好 的 算法 ,那么 对 于 其 他 NP 完全 问题 也 同样 可 以 找到 
一 种 更 快 的 方法 。 不 过 到 目前 为 止 , 还 没有 找到 比 穷 举 法 更 好 的 TSP 问题 的 算法 ， 将 来 我 们 也 不 
大 可 能 找到 。 

所 以 如 何 解 决 TSP 问题 呢 ? 目前 有 一 些 比较 智能 的 办 法 。 然 而 ， 我 们 要 探讨 的 是 一 个 十 分 简 
单 的 、 类 似 于 树 形 搜索 的 算法 。 基 本 思想 是 在 搜寻 可 行 解 时 构造 一 棵 树 。 树 的 叶子 结 点 对 应 于 一 
种 回路 ， 树 的 其 他 结 点 对 应 于 部 分 回路 一 一 访问 了 部 分 城 1 
市 ， 但 不 是 全 部 城市 的 路 线 。 

树 中 的 每 个 结 点 都 有 代价 ， 也 就 是 部 分 回路 的 代价 。 可 
以 利用 这 些 信息 去 掉 树 中 的 某 些 结 点 。 因 此 ， 需 要 跟踪 目前 
为 止 代价 最 小 的 部 分 回路 ， 如 果 发 现 一 个 部 分 回路 不 可 能 导 
出 代价 更 小 的 回路 时 ， 就 不 用 再 扩展 该 部 分 回路 了 见 图 6- 
9 和 图 6-10) 。 

在 图 6-9 中 ， 我 们 用 一 个 带 标记 的 有 向 图 说 明了 四 个 城 
市 的 TSP 问题 。 图 是 结 点 和 边 的 集合 。 有 向 图 中 的 边 是 有 方 
向 的 〈 边 的 末端 是 尾部 ， 另 外 一 端 是 头 部 ) 。 如 果 一 个 图 中 
的 结 点 和 边 带 有 标记 ， 我 们 就 称 之 为 带 标记 的 图 。 在 我 们 的 例子 中 ， 有 向 图 的 结 点 对 应 于 TSP 问 
题 中 的 城市 ， 边 对 应 于 城市 之 间 的 路 径 ， 边 上 的 标记 对 应 于 城市 之 间 路 径 的 代价 。 例 如 ， 从 城市 
0 到 城市 1 的 代价 为 1， 从 城市 1 到 城市 0 的 代价 为 5。 


0,0 





图 6-9 4 个 城市 的 TSP 问题 


0—>1,1 0—>2,3 0—>3,8 


0=>1=>2,3 0>133,7 0->2->121x 0->2->3,13 0->3->1,12 0>3->2,20x 


| | 


0->1->2->3->0,20 0->2->1->3->0,34x 0-~>3->1->2->0,15 


0->1->3->2->0,20 0->2->3->1->0,22 0->3->2-~>1->0,43X 
图 6-10 4 个 城市 TSP 问题 的 搜索 树 


如 果 我 们 选取 城市 0 作为 旅行 商 的 出 发 城市 ， 因 为 我 们 还 没有 出 发 ， 所 以 初始 的 部 分 回路 由 

结 点 0 组成， 代价 为 0。 因 此 ， 图 6-10 中 代表 部 分 回路 的 树 只 有 结 点 0， 且 代价 为 0。 从 结 点 0 出 

发 ,我 们 可 以 访问 结 点 1、 结 点 2 或 者 结 点 3， 代 价 分 别 为 1、3 和 8。 在 图 6-10 中 ,， 树 的 根 有 3 

个 子 结 点 。 继 续 沿 结 点 搜索 ， 我 们 得 到 6 个 包含 3 个 城市 的 部 分 回路 ， 因 为 只 有 4 个 城市 ， 所 以 
559 一 且 选 择 了 3 个 城市 后 ， 也 就 知道 完整 的 回路 了 。 

现在 ， 要 想 找 出 最 小 代价 的 回路 就 需要 搜索 整个 树 。 树 搜索 有 很 多 方法 ， 其 中 最 常用 的 一 种 
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就 是 深度 优先 搜索 。 在 深度 优先 搜索 的 过 程 中 ， 需 要 尽 可 能 深 地 探测 树 的 结构 。 一 旦 搜索 到 叶子 
结 点 或 者 搜索 到 不 可 能 得 到 最 小 代价 回路 的 结 点 ， 就 需要 回 退 到 拥有 未 被 访问 子 结 点 的 “祖先 ” 
结 点 ， 并 且 开 始 尽 可 能 深 地 探测 其 中 的 一 个 子 结 点 。 
在 上 面 的 例子 中 ， 从 根 结 点 开始 ， 一 直 往 左 搜索 直到 某 个 叶子 结 点 ， 标 记分 别 为 : 

0 一 1 一 2 一 3 一 0 ， 代 价 为 20 
然后 回 退 到 标记 为 0 一 1 的 结 点 ， 因 为 它 有 未 访问 的 子 结 点 。 继 续 分 支 搜 索 到 叶子 结 点 ， 标 记 为 :; 

0 一 1 一 3 一 2 一 0， 代 价 为 20 
继续 同样 的 过 程 ， 回 退 到 根 结 点 ， 转 移 到 另 一 个 分 支 ， 搜 索 标 记 为 0 一 2 的 结 点 ， 访 问 它 的 子 结 
点 ,标记 为 : 

0 一 2 一 1 ， 代 价 为 21 

到 达 此 结 点 后 ， 就 不 需要 再 继续 往 下 层 搜索 了 了， 因为 当前 已 经 有 上 比 21 代价 还 小 的 完整 回路 。 回 
退 到 结 点 0 一 2 ， 并 继续 访问 其 未 被 访问 的 子 结 点 ， 最 终 找 出 最 小 代价 的 回路 是 : 

0 一 3 一 1 一 2 一 0 ， 代 价 为 15 


6.2. 1 递归 的 深度 优先 搜索 

深度 优先 搜索 可 以 系统 地 访问 树 中 每 一 个 可 能 得 到 最 小 代价 的 结 点 ， 其 最 简单 的 形式 就 是 使 
用 递归 ( 见 程序 6-4) 。 程 序 6-4 中 第 8 ~ 13 行 的 for 循环 中 ， 如 果 对 城市 的 访问 是 按 确定 顺序 ， 
那么 就 比较 容易 实现 递归 。 所 以 ， 我 们 假设 城市 的 访问 顺序 是 按 城 市 的 标记 递增 的 ， 从 城市 1 到 
城市 n-1。 

递归 的 深度 优先 搜索 使 用 以 下 几 个 全 局 变量 : 

e。 mn: TSP 问题 中 城市 的 数量 。 

。 digraph: 代表 输入 有 向 图 的 数据 结构 。 

。 hometown: 代表 结 点 或 者 城市 0 〈( 即 旅行 商 的 家 乡 或 者 起 点 ) 的 数据 结构 。 

。 best_tour: 代表 当前 最 佳 回 路 的 数据 结构 。 

函数 Cjity_count 用 于 测试 部 分 回路 tour ， 看 部 分 回路 是 否 已 经 访问 了 个 城市 ， 如 果 是 ， 
就 可 以 返回 起 点 并 完成 一 次 旅行 。 然 后 调用 Best_tour 来 检测 该 完全 回路 的 代价 是 否 比 当 前 最 
佳 回 路 的 代价 小 。 如 果 其 代价 更 小 ， 就 调用 Update_best_tour ， 用 其 替代 当前 的 最 佳 回 路 。 
注意 ， 在 第 一 次 调用 Depth_first_search 之 前 ,变量 best_tour 应 该 初始 化 为 比 任意 可 能 
的 最 佳 回 路 代价 大 的 代价 。 

如 果 部 分 回路 tour 还 没有 访问 = 个 城市 ， 那 么 就 需要 继续 分 支 搜索 下 去 ， 换 句 话说 ， 就 是 
从 部 分 回路 的 最 后 一 个 城市 开始 去 继续 访问 其 他 未 被 访问 的 城市 。 要 做 到 这 点 ， 需 要 做 进一步 的 
循环 操作 。 荫 数 Feasible 用 于 检测 结 点 是 否 已 被 访问 过 ， 如 果 没 有 被 访问 过 ， 就 检测 访问 它 是 
否 可 能 获得 更 小 的 回路 代价 。 如 果 这 个 城市 是 可 行 的 〈 即 可 能 获得 更 小 的 回路 代价 ) ， 就 把 它 加 
人 到 回路 中 ， 然 后 递归 调用 Depth_first_search。 当 从 Depth_first_search 返回 时 ， 从 
回路 中 删除 该 城市 ， 因 为 在 随后 的 递归 调用 中 的 下 一 个 回路 不 应 该 再 包含 该 城市 。 


程序 6-4 ”旅行 商 问题 递归 深度 优先 搜索 的 伪 代 码 








void Depth-first-search(tour-t tour) { 
City-t city; 


1 

2 

3 

4 if (Citycount(tour) == Nn) { 
5 if (Best_tour(tour)) 

6 Update-best-tour(tour) 
7 } else { 

8 for each neighboring city 
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9 if (Feasible(tour, city)) { 

10 Add_city(tour, city); 

11 Depth_first.search(tour); 

12 Remove-last_city(tour, city); 


13 } 


} 
15 } /* Depth_first_search */ 











6. 2. 2 非 递归 的 深度 优先 搜索 

因为 函数 调用 的 开销 很 大 ， 所 以 递归 调用 会 运行 得 很 慢 。 同 时 ， 在 运行 过 程 中 只 有 当前 树 结 
点 可 以 被 访问 ， 这 样 当 我 们 想 把 树 结 点 划分 开 来 分 配给 各 个 线程 或 进程 并 行 化 树 搜索 时 就 会 碰 到 
问题 。 

非 递归 的 深度 优先 搜索 是 可 能 实现 的 。 基 本 思想 是 模拟 递归 实现 ， 递 归 的 函数 调用 可 以 通过 
把 当前 递归 函数 的 状态 压 人 运行 时 栈 来 实现 。 因 此 ,在 进入 更 深 一 层 的 树 分 支 之 前 ， 把 一 些 必要 
的 数据 压 人 自己 的 栈 ， 可 以 通过 这 种 方式 来 减少 递归 操作 。 在 需要 回溯 时 〈 可 能 是 到 达 了 叶子 结 
点 ， 也 可 能 是 搜索 到 一 个 不 可 能 得 到 更 好 解 的 结 点 ) ， 就 执行 出 栈 操作 。 


程序 6-5 ”旅行 商 问题 的 非 递归 深度 优先 搜索 的 伪 代 码 


1 for (city = n-l; city >= 1; city 一 ) 

2 Push(stack, city); 

3 while (!Empty(stack)) { 

4 city = Pop(stack); 

5 if (city == NOCITY) // End of child 1ist, back up 
6 Remove.last city(curr_tour): 

7 else | 

8 Add_city(curr_tour, city): 

9 if (City-count(curr-tour) == n) { 
10 if (Best.tour(curr.tour)) 

11 Updatebest.tour(curr.tour); 
12 Remove.last.city(curr-tour); 

13 ] else { 

14 Push(stack, NO_CITY):; 

15 for (nbr = n~l; nbr >= 1; nbr 一 ) 
16 if {Feasible(curr_tour, nbr)) 
17 Push(stack, nbr); 

18 } 

19 } /* if Feasible */ 


20 } /x while :Empty 本 / 








程序 6-5 实现 了 上 述 思路 导出 的 非 递 归 迭 代 深 度 优先 搜索 。 在 这 个 版 本 里 ,一 条 栈 记录 是 一 
个 城市 ， 当 一 条 记录 出 栈 时 ， 该 城市 就 加 入 回路 中 。 在 递归 版 本 里 ， 程 序 重复 递归 调用 直到 已 经 
访问 了 树 中 一 条 可 行 回路 中 的 所 有 结 点 。 到 达 这 一 结 点 后 ， 栈 中 就 不 会 再 添加 任何 用 于 调用 

B03 Depth_first_search 的 活动 记录 ， 然 后 程序 返回 至 最 开始 Depth_first_search 的 调用 点 。 
在 非 递 归 和 迭代 版 本 里 ， 程 序 的 主要 控制 结构 是 第 3 ~20 行 的 while 循环 ， 而 循环 终止 的 条 件 是 栈 
为 空 。 只 要 搜索 仍然 继续 下 去 ， 就 需要 保证 栈 是 非 空 的 。 在 代码 的 前 两 行 ， 我 们 把 非 起 始点 加 入 
到 栈 中 。 需 要 注意 的 是 ， 这 个 两 行 代码 的 循环 按照 降序 访问 城市 ， 即 从 m-1 ~1， 这 是 由 栈 这 个 
数据 结构 “后 人 先 出 ”的 特点 决定 的 。 将 这 个 顺序 反 过 来 ， 这 样 就 保证 了 在 该 版 本 中 访问 城市 的 
顺序 与 递归 版 本 中 是 一 样 的 。 

同时 还 注意 到 ， 第 $ 行 检查 出 栈 城市 是 否 是 常量 NO_CITY。 该 常量 用 于 表示 树 中 某 结 点 的 所 
有 子 结 点 都 已 经 被 访问 过 了 。 如 果 不 用 这 个 常量 ， 就 无 法 决定 什么 时 候 执 行 回 湖 操 作 。 因 此 ， 在 
把 某 结 点 的 所 有 子 结 点 压 入 栈 前 (第 15 ~17 行 )， 需 要 把 NO_CITY 人 栈 。 

对 上 述 非 递归 迭代 版 本 还 可 以 有 另 一 个 替代 版 本 : 用 部 分 回路 作为 栈 中 的 记录 〈 见 程序 6-6)。 
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这 样 的 代码 更 接近 于 递归 函数 的 形式 。 然 而 ， 这 个 版 本 的 执行 速度 会 更 慢 ， 因 为 人 栈 函 数 在 把 回 
路 压 人 栈 中 前 需要 创建 该 回路 的 副本 。 为 了 强调 这 一 点 ， 程 序 中 调用 的 是 Push_copy 函数 。( 如 
果 只 是 简单 地 将 指向 当前 回路 的 指针 压 人 栈 ， 会 出 现 什么 问题 ?) 运行 这 个 版 本 的 程序 需要 更 多 
内 存 ， 这 不 会 是 大 问题 。 但 是 ， 给 新 回路 分 配 内 存 空间 和 复制 现 有 回路 是 很 耗 时 的 。 在 某 种 程度 
上 ， 可 以 考虑 把 已 经 释放 的 回路 保存 在 自己 的 数据 结构 中 ， 以 便 在 函数 Pusn_copy 利用 已 经 释 
放 的 回路 时 不 必 调 用 mal110c， 从 而 降低 上 述 操作 的 开销 。 


程序 6-6 ”旅行 商 问 题 的 非 递归 深度 优先 搜索 的 另 一 种 伪 代 码 


1 Push-copy(stack，tour): // Tour that visits only the hometown 
2 while (!lEmpty(stack)) { 





3 curr-tour = Pop(stack); 
4 if (City-count(curr-tour) == n) { 
.5 if (Best-tour(curr.tour)) 
6 Update-best.tour(curr.tour); 
7 } else { 
8 for (nbr = nl: nbr >= 1; nbr- 一 ) 
9 tf (Feasible(curr.tour, nbr)) { 
10 Add.city(curr.tour, nbr) 
11 Push.copy(stack, curr-tour); 
12 Remove-l1ast-city(curr-tour ); 
13 } 
14 } 
15 Free-tour(curr-tour) 


16 } 





男 一 方面 ， 该 版 本 有 一 个 特点 ， 即 栈 或 多 或 少 独立 于 其 他 数据 结构 。 因 为 整个 回路 都 存储 起 
来 ， 所 以 多 个 线程 /进程 就 可 以 方便 地 各 自 存 取 回 路 。 如 果 很 小 心地 进行 设计 ， 就 不 会 破坏 程序 BE 
的 正确 性 。 在 之 前 的 非 递 归 友 代 版 本 里 ， 一 个 栈 记录 就 是 一 个 城市 ， 它 没有 提供 足够 的 现场 信息 
告知 我 们 当前 搜索 过 程 所 处 的 阶段 。 


6. 2. 3 ” 串 行 实现 所 用 的 数据 结构 

程序 中 基本 的 数据 结构 包括 回路 、 有 向 图 和 栈 〈 在 迭代 实现 中 要 使 用 到 ) 。 回 路 和 栈 一 般 用 
链表 结构 表示 。 在 经 常 处 理 的 TSP 问题 中 ， 城 市 的 数目 一 般 都 比较 小 〈 小 于 100) ， 采 用 链表 来 
表示 回路 没有 优势 ， 所 以 我 们 用 数组 存储 n +1 个 城市 。 因 为 我 们 需要 重复 获取 部 分 回路 中 城市 
的 数量 和 部 分 回路 的 代价 ， 所 以 我 们 用 结构 体 蔡 代 简单 的 数组 来 表示 回路 ， 该 结构 体 的 成 员 包 
括 : 存储 城市 的 数组 、 城 市 的 数量 和 部 分 回路 的 代价 。 

为 了 提高 代码 的 可 读 性 和 性 能 ， 用 预 处 理 器 宏 存 取 结 构 体 的 成 员 变量 。 然 而 ， 因 为 宏 对 于 程 
序 调试 来 说 是 一 个 囊 梦 ， 所 以 在 初始 开发 阶段 使 用 “ 存 取 器 ”函数 是 个 不 错 的 主意 。 当 “ 存 取 
器 ”函数 可 以 正常 工作 后 ， 再 用 宏 替 代 它 。 例 如 ， 我 们 可 能 开始 用 的 函数 是 : 


/* Find the ith city on the partiay tour */ 
int Tour-city(tour-t tour, int 1) { 

return tour~>cities[i]; 
} /* Tour-city */ 


当 程 序 正常 工作 后 ， 我 们 可 以 用 下 面 的 宏 来 蔡 代 ， 


/kx Find the ith city on the partia} tour */ 
#define Tour.city(tour, 1) (tour->cities[i]) 


在 第 一 个 非 递归 的 和 迭代 版 本 中 ， 栈 只 是 一 组 城市 或 者 一 组 整数 值 (int) 。 而 且 ， 任 意 时 刻 在 栈 中 
不 会 有 超过 mv《2 个 记录 ， 同 时 又 比较 小 ， 所 以 可 以 像 回 路 的 数据 结构 那样 ， 采 用 数组 结构 来 表 
示 ， 并 把 栈 中 元 素 的 数量 也 存储 起 来 。 因 此 ，Push 可 以 用 下 面 的 代码 实现 : 
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void Push(my-stackt stack, int city) { 
int loc = stack—>1ist._sz; 
stack—>1ist[1loc] = city; 
stack—>1ist_sz+tt+; 

} A/* Push */ 


在 第 二 种 非 递 归 和 迭代 版 本 里 ， 栈 中 的 元 素 是 回路 ,我 们 也 可 以 用 数组 来 表示 回路 。 人 栈 函 数 类 似 
于 下 面 的 代码 : 


void Push.copy(my-stack.t stack, tourt tour) { 
int loc = stack—>]1ist.sz; 

tour-t tmp = Alloc.tour(); 

Copy-tour(tour, tmp); 

stack 一 >1ist[1oc] = tmp; 

stack—>]ist_sz++:; 

/hk Push */ 


B65) 而 且 ， 对 栈 中 元 素 的 访问 也 可 以 用 宏 来 实现 。 
有 向 图 的 数据 结构 可 以 有 多 种 实现 形式 。 当 有 向 图 的 边 数 比较 少时 ， 链 表 是 较 好 的 实现 形 
式 。 然 而 ， 在 我 们 的 设 定 里 ， 两 个 不 同 结 点 之 间 相 互 连 接 的 边 是 有 向 的 ， 结 点 i 到 绪 点 j 的 边 和 
结 点 7 到 结 点 i 的 边 是 不 同 的 ， 有 着 各 自 的 权 值 。 所 以 需要 存储 每 条 有 向 边 的 权 值 ， 采 用 邻接 短 
阵 比 链表 结构 更 合适 。 也 就 是 ”xz 的 矩阵 ， 结 点 ! 到 结 点 / 的 边 的 权 值 就 是 矩阵 第 i 行 第 j 列 的 元 
素 值 。 我 们 可 以 直接 存 取 这 个 权 值 ， 而 不 需要 遍历 链表 。 和 矩阵 对 角 线 上 的 元 素 (第 i 行 和 第 i 列 
的 元 素 ) 没有 使 用 ， 因 此 设置 值 为 0。 


6.2.4 串 行 实现 的 性 能 

十 述 二 利 申 行 实现 的 运行 时 门 0 表 6 7 所 未 。 输 人 的 有 站 因 合 有 人生 感人 包括 起 给 点 )， 
三 种 算法 访问 了 大 约 9 500 万 个 树 结 点 。 第 一 个 迭代 版 本 比 递归 版 本 要 快 约 5% ,第 二 个 迭代 版 
本 比 递归 版 本 要 4 的 3， 正如 所 期 时 村 第 一 个 迭代 版 本 减少 了 某 些 重复 函数 调用 所 带 来 
的 开销 ， 同 时 第 二 个 和 迭代 版 本 由 于 重复 地 复制 回路 数据 结构 而 运行 得 更 慢 。 然 而 ， 第 二 个 迭代 版 
本 更 易于 实现 并 行 化 ， 因 此 将 采用 它 作 为 树 形 搜索 并 行 化 版 本 的 基础 。 


表 6-7 树 形 搜索 的 三 种 串 行 化 实现 的 运行 时 间 ( 单位 : 秒 ) 


递归 实现 第 一 个 迭代 版 本 第 二 个 选 代 版 本 
30.5 29.2 32.9 


6. 2.5 树 形 搜索 的 并 行 化 

先 看 看 树 形 搜索 的 并 行 化 方案 。 树 的 结构 提示 我 们 按照 树 结 点 来 划分 任务 。 如 果 这 样 做 ， 任 
务 将 随 着 树 的 边 往 下 传递 : 父 结 点 传递 一 个 新 的 部 分 回路 给 子 结 点 ， 但 是 ， 除 非 终 目 搜索， 否则 
子 结 点 不 会 直接 与 父 结 点 通信 。 

我 们 还 需要 考虑 对 最 佳 回 路 的 更 新 和 使 用 。 每 个 任务 都 通过 测试 最 佳 回路 来 判定 当前 部 分 回 
路 是 否 可 行 或 者 当前 完整 回路 是 否 有 更 低 的 代价 。 如 果 一 个 任务 (到达 叶子 结 点 时 ) 判定 它 的 回 
gg 全 全 生生 人 

， 但 还 要 注意 到 ， 最 佳 回路 数据 结构 会 增加 额外 的 、 非 显 式 通过 树 边 表示 的 通信 。 因 此 ， 最 好 
信任 辐 中 议和 和 洽 每 个 树 结 点 中 的 任务 发 送 数据 ， 同 时 接收 来 自 某 些 
叶子 结 点 的 数据 。 该 任务 在 共享 内 存 系统 中 较 容 易 实 现 ， 但 在 分 布 式 内 存 系统 中 实现 起 来 却 不 是 
太 方 便 。 

在 分 配 和 映射 任务 时 ， 一 个 自然 而 然 的 做 法 是 将 一 个 子 树 分 配给 一 个 线程 /进程 ， 由 每 个 线 
程 /进程 执行 子 树 的 所 有 任务 。 例 如 ， 有 3 个 线程 或 者 进程 (如 图 6-10 所 示 )， 可 以 把 0 一 1 为 根 
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的 子 树 映射 给 线程 /进程 0， 以 0 一 2 为 根 的 子 树 映 射 给 线程 /进程 1， 以 0 一 3 为 根 的 子 树 映射 给 线 
程 /进程 2。 

映射 操作 的 细节 

如 何 将 子 树 分 配给 线程 /进程 有 很 多 种 算法 。 例 如 ， 一 个 线程 /进程 可 以 运行 最 后 一 个 版 本 的 
串 行 化 深度 优先 搜索 ， 直 到 所 有 线程 /进程 的 栈 里 都 存 有 一 条 部 分 回路 。 这 样 就 可 以 分 配 一 条 回 
路 给 一 个 线程 /进程 。 深 度 优先 搜索 存在 的 问题 是 : 根 结 点 越 高 的 子 树 需 要 做 的 工作 越 多 ， 所 以 ， 
为 了 获得 较 好 的 负载 均衡 ， 可 以 使 用 类 似 于 广度 优先 搜索 的 方法 来 找 出 子 树 。 

正如 名 字 所 暗示 的 ， 广 度 优先 搜索 在 搜索 更 深层 次 前 先 尽 可 能 广 地 访问 结 点 。 因 此 ， 如 果实 
现 一 次 广度 优先 搜索 ， 直 到 搜索 到 树 的 某 层 ， 其 结 点 数 至 少 有 thread_count 或 者 comm_sz， 
就 可 以 在 这 一 层 划 分 任务 。 习 题 6. 18 有 更 详细 的 实现 。 

最 佳 回路 的 数据 结构 

在 共享 内 存 系统 里 ， 最 佳 回 路 的 数据 结构 可 以 共享 。 在 这 种 设 定 下 ，Feasible 函数 可 以 简单 
地 测试 这 个 数据 结构 。 然 而 ， 对 这 个 数据 结构 的 更 新 会 导致 竞争 ， 需 要 对 锁 进 行 排序 来 避免 这 类 
错误 。 在 实现 并 行 版 本 时 ， 我 们 会 对 此 问题 给 出 更 详细 的 讨论 。 

在 分 布 式 内 存 系统 里 ， 对 最 佳 回路 的 处 理 有 多 种 选择 。 最 简单 的 一 种 是 让 各 个 进程 独立 工 
作 ， 直 到 它们 分 别 完成 了 对 各 自 子 树 的 搜索 。 在 这 种 设 定 里 ， 每 个 进程 需要 存储 自己 的 最 佳 回 


路 。 这 个 本 地 的 局 部 最 佳 回路 方案 会 由 进程 在 Feasible 函数 里 调用 ， 并 且 在 每 次 调用 Update_ 


best_tour 时 得 到 更 新 。 当 所 有 的 进程 都 完成 了 各 自 的 搜索 后 ， 它 们 将 执行 一 个 全 局 的 归 约 操 
作 来 找 出 全 局 最 少 代价 的 回路 ， 即 最 佳 回路 。 

这 种 方法 比较 简单 ， 但 存在 一 个 问题 ， 即 有 可 能 某 个 进程 花费 了 所 有 的 时 间 去 搜索 一 个 不 可 
能 得 到 全 局 最 佳 回路 的 子 树 。 因 此 ， 应 该 让 当前 全 局 最 佳 回 路 对 于 所 有 的 进程 都 可 见 。 我 们 会 在 
讨论 MPI 实现 时 给 出 更 详细 的 介绍 。 

动态 映射 任务 

我 们 需要 考虑 的 第 二 个 问题 是 负载 不 均衡 。 尽 管 使 用 广度 优先 搜索 可 以 确保 所 有 划分 的 子 树 
有 近似 的 结 点 数 ， 但 是 却 不 能 保证 它们 有 同样 的 工作 负载 。 完 全 有 可 能 存在 这 样 的 情况 : 分 配给 
某 个 线程 /进程 子 树 的 回路 代价 很 高 ， 不 需要 对 子 树 进行 很 深度 的 搜索 。 目 前 来 看 ， 在 静态 任务 
映射 方案 中 ， 该 线程 /进程 将 简单 地 等 待 ， 直 到 其 他 线程 /进程 完成 任务 为 止 。 

对 于 上 述 问 题 ， 一 个 可 替代 的 方案 是 动态 任务 映射 。 在 动态 方案 中 ， 当 一 个 线程 /进程 完成 
分 配给 它 的 任务 时 ， 就 可 以 从 另 一 个 线程 /进程 那里 分 配 获得 额外 的 任务 。 在 我 们 最 终 实现 的 串 
行 深 度 优先 搜索 里 ， 栈 的 每 个 记录 是 一 个 部 分 回路 。 使 用 这 种 数据 结构 ， 某 个 线程 /进程 就 可 以 
通过 划分 自己 栈 中 的 内 容 将 任务 分 配给 另 一 个 线程 /进程 。 这 样 做 可 能 会 出 现 程序 正确 性 的 问题 ， 
因为 如 果 把 一 个 线程 栈 里 的 部 分 工作 分 配给 另 一 个 线程 ， 那 么 树 结 点 被 访问 的 顺序 有 可 能 被 
改变 。 

然而 ， 我 们 打算 这 样 做 : 当 分 配 不 同 的 子 树 给 不 同 的 线程 /进程 时 ， 树 结 点 被 访问 的 顺序 就 
不 再 是 串 行 深度 优先 搜索 的 顺序 了 。 实 际 上 ， 只 要 能 保证 : 访问 “祖先 ”一 定 在 “后 代 ” 之 前 ， 
就 不 需要 保证 访问 某 个 结 点 必须 在 另 一 个 其 他 结 点 之 前 。 这 一 点 其 实 并 不 是 问题 ， 因 为 一 个 部 分 
回路 在 它 所 有 的 “祖先 ” 结 点 都 被 访问 前 是 不 会 被 压 人 栈 中 的 。 例 如 ， 在 图 6-10 中 ， 当 含有 回 
路 0 一 2 的 结 点 是 当前 动态 结 点 时 ， 含 有 回路 0 一 2 一 1 的 结 点 会 被 压 人 栈 中 ,因此 这 两 个 结 点 不 
会 同时 在 栈 中 。 类 似 地 ，0 一 2 的 父 结 点 ， 也 就 是 树 的 根 结 点 ， 在 0 一 2 被 访问 后 ， 也 不 会 再 在 
栈 中 。 

另 一 种 动态 负载 均衡 方案 (至少 在 共享 内 存 的 情况 下 ) 使 用 共享 栈 。 然 而 ， 我 们 不 可 以 简单 
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地 去 掉 那 些 本 地 栈 。 如 果 一 个 线程 需要 在 每 次 人 栈 和 出 栈 操作 时 存 取 共 享 栈 ， 那 么 会 产生 非常 多 

的 竞争 问题 ， 并 行程 序 的 性 能 也 可 能 会 比 串 行程 序 更 差 。 实 际 上 ， 这 也 是 在 用 互 斥 量 / 锁 并 行 化 

体 问 题 时 碰 到 的 问题 。 如 果 每 次 调用 Push 和 Pop 操作 都 要 访问 临界 区 一 次 ， 程 序 就 会 近似 于 完 

全 暂停 。 因 此 ， 我 们 会 为 每 个 线程 保留 本 地 栈 ， 只 在 少数 时 候 访 问 共 享 栈 。 我 们 不 会 实现 这 种 替 
B03 代 方 案 。 编 程 作业 6.7 对 此 有 更 详细 的 讨论 。 


6.2.6 采用 Pthreads 实现 的 静态 并 行 化 树 搜索 
在 静态 并 行 化 中 ， 单 个 线程 使 用 深度 优先 搜索 生成 足够 的 部 分 回路 ， 这 使 得 每 个 线程 至 少 分 配 
到 一 条 部 分 回路 。 然 后 每 个 线程 对 分 配给 它 的 回路 进行 迭代 搜索 。 每 个 线程 可 以 采用 如 程序 6-7 所 
示 的 伪 代 码 。 值 得 注意 的 是 ， 对 于 绝 大 多 数 的 函数 调用 (例如 Best_tour、Feasible、Add_ 
city) ， 需 要 存 取代 表 有 向 图 的 邻接 矩阵 ， 所 以 所 有 线程 都 需要 存 取 有 向 图 。 这 些 只 是 读 操作 ， 
所 以 不 会 导致 线程 间 的 竞争 冲突 。 
程序 6-7 TSP 问题 的 静态 并 行 化 Pthreads 实现 的 伪 代码 


Partition-treefmy-rank ，my-stack); 











while (!Empty(my-stack)) { 
curr-tour = Pop(my-stack); 
if (Citycount(curr.tour) == n) 
if (Best-tour(curr-.tour)) Update.best.tour(curr.tour); 
} else { 
for (city = n-—l; city >= 1; city—) 
1f (Feasibie(curr.tour, city)) { 
Add_city(curr_tour, city); 
Push.copy (my-stack, curr.tour}): 
Remove-last_city(curr-tour) 
} 


] 
Free_tour{({curr.tour); 
} 





这 里 的 擅 代 码 与 第 二 个 和 迭代 串 行 实现 里 的 伪 代 码 主要 有 个 四 个 不 同 的 方面 : 
。 采用 my_stack 来 替代 stack; 因为 每 个 线程 都 有 自己 的 私有 栈 ， 所 以 使 用 my_stack 
作为 栈 的 标识 符 ， 而 不 采用 stack。 

e。 栈 的 初始 化 。 

e Best_tour 函数 的 实现 。 

e Update_best_tour 函数 的 实现 。 

在 串 行 实现 中 ， 栈 的 初始 化 把 只 包含 起 始点 的 部 分 回路 压 人 栈 中 。 在 并 行 化 版 本 里 ， 我 们 需 
要 生成 至 少 thread_count 数量 的 部 分 回路 ， 并 将 这 些 回路 分 配给 线程 组 中 的 每 个 线程 。 正 如 
我 们 之 前 讨论 的 那样 ， 让 某 个 线程 进行 广度 优先 搜索 ， 直 到 到 达 至 少 有 thread_count 个 子 树 

的 层次 ， 这 样 可 以 生成 至 少 thread_count 条 回路 (需要 注意 的 是 : 这 意味 着 线程 的 数量 应 该 

小 于 (mn -1)1)。 然 后 ， 所 有 的 线程 就 可 以 采用 块 划分 来 分 配 这 些 回路 ， 并 把 它们 分 别 压 人 到 各 
自 的 私有 栈 中 。 习 题 6. 18 对 此 有 详细 的 探讨 。 

为 了 实现 Best_tour 函数 ， 每 个 线程 都 需要 把 自己 当前 回路 的 代价 与 全 局 最 佳 回路 的 代价 进 
行 对 比 。 因 为 多 个 线程 可 能 同时 访问 全 局 最 佳 回路 的 代价 ， 这 就 可 能 存在 竞争 访问 。 然 而 ，Best_ 
tour 函数 只 是 读 取 全 局 最 佳 回路 的 代价 ， 所 以 这 些 读 取 操 作 之 间 不 会 存在 冲突 。 如 果 一 个 线程 
正在 更 新 全 局 最 佳 回路 的 代价 ， 此 时 另 一 个 线程 又 正好 检查 最 佳 回路 代价 的 值 ， 那 么 就 会 既 可 能 
读 取 到 的 是 旧 值 ， 也 可 能 是 更 新 过 的 值 。 当 然 ， 我 们 希望 读 取 到 的 是 更 新 值 ， 但 是 如 果 不 采 用 一 
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些 复杂 的 锁 策 略 就 不 能 保证 读 取 到 的 是 更 新 过 的 值 。 例 如 ， 想 要 执行 Best_tour 或 者 Update_ 
best_tour 的 线程 可 能 需要 在 一 个 互 斥 量 上 等 待 。 这 样 可 以 保证 没有 线程 可 以 在 另 一 个 线程 只 
是 检查 值 的 时 候 去 更 新 值 ， 但 这 种 做 法 也 会 产生 一 个 新 间 题 : 边际 效应 ， 即 一 次 只 能 有 一 个 线程 
可 以 检查 最 佳 回 路 的 代价 。 还 可 以 采用 读 写 锁 来 改进 这 个 方法 ,但 这 种 方法 也 有 部 
Best_tour 的 线程 ， 会 由 于 另 一 个 线程 更 新 最 佳 回路 的 代价 而 阻塞 。 原则 上 ， 这 听 起 来 好 像 不 
太 坏 ,但 实际 上 使 用 读 写 锁 会 相当 慢 。 因 此 ， 可 能 是 虽然 得 到 过 时 的 数据 但 无 冲突 的 方案 效果 会 
更 好 ， 因 为 在 线程 下 一 次 调用 Best_tour 时 它 就 会 得 到 更 新 过 的 最 佳 回路 的 代价 。 

另 一 方面 ,调用 Update_best_tour 会 在 线程 之 间 同 时 写 时 出 现 写 冲突 。 为 了 避免 这 个 问 
题 ， 可 以 用 互 斥 量 来 保护 Update_best_tour 函数 。 不 过 这 还 不 够 ， 在 某 个 线程 完成 Best_ 
tour 中 对 最 佳 回 路 代价 的 检查 与 它 获得 Update_best_tour 中 的 锁 之 间 ， 有 可 能 另 一 个 线程 先 
取得 锁 并 更 新 最 佳 回路 代价 ， 而 这 个 代价 可 能 会 小 于 第 一 个 线程 在 Best_tour 中 发 现 的 最 佳 回 
路 代价 。 因 此 ，Update_best_tour 正确 的 伪 代 码 应 该 类 似 于 : 


pthread-mutex-1ock(best_-tour-mutex); 
/* We've already checked 8est_tour，but we need to check it 
again */ 
1if (Best.tour(tour)) 
Replace old best tour with tour: 
pthread.mutex-unlock(best_tour_mutex). 


这 样 看 起 来 似乎 有 些 浪 费 , 但 是 如 果 最 佳 代价 的 更 新 不 是 很 频繁 的 话 ， 那 么 绝 大 多 数 的 Best_ 
tour 会 返回 false， 而 且 几 乎 不 需要 做 “二 次 ”调用 。 


6. 2.7 采用 Pthreads 实现 的 动态 并 行 化 树 搜索 

如 果 将 子 树 初始 化 分 配给 各 个 线程 的 工作 没有 做 好 ， 那 么 静态 并 行 化 策略 也 无 法 对 工作 进 
行 重 新 分 配 。 那 些 分 配 到 “小 ” 子 树 的 线程 就 会 很 早 完成 工作 ， 同 时 那些 分 配 到 大 子 树 的 线 
程 却 会 继续 工作 。 这 其 实 不 难 想象 ; 某 个 线程 所 获得 的 初始 回路 中 边 的 代价 较 小 ， 而 其 他 线程 5g 
的 初始 回路 中 边 的 代价 较 大 。 为 了 解决 这 个 问题 ， 可 以 尝试 在 计算 的 过 程 中 动态 重新 分 配 
工作 。 

为 了 做 到 这 一 点 ， 我 们 用 更 复杂 的 代码 去 替代 while 循环 的 ! Empty(my_stack) 控 制 执行 
条 件 。 其 基本 原理 是 : 当 一 个 线程 做 完工 作 以 后 ， 即 ! Empty(my_stack) 变 成 false 时， 线程 
不 会 立即 离开 while 循环 ， 而 是 等 待 看 是 否 有 另外 一 个 线程 可 以 提供 更 多 的 工作 。 另 一 方面 ， 如 
果 一 个 线程 还 有 工作 可 以 做 ， 同 时 发 现 有 其 他 线程 没有 工作 可 以 做 ， 并 且 它 的 栈 里 有 至 少 两 个 回 
路 时 ， 该 线程 可 以 “分 离 ” 它 自己 的 栈 ， 把 没 做 完 的 工作 提供 给 其 他 线程 去 完成 。 

Pthreads 的 条 件 变量 提供 了 一 个 很 简单 的 方法 来 实现 上 述 想法 。 当 一 个 线程 做 完工 作 后 ， 它 
调用 pthread_cond_wait， 然 后 进入 睡眠 。 当 一 个 有 工作 可 做 的 线程 发 现 至 少 有 一 个 线程 正在 
等 待 分 配 任务 时 ， 在 分 离 自 己 的 栈 后 ， 该 线程 调用 pthread_cond_signal 唤醒 处 于 睡眠 态 的 
线程 。 被 唤醒 的 线程 获得 被 分 离 的 栈 中 一 半 的 任务 并 返回 工作 状态 

这 个 思想 可 以 扩展 用 于 处 理 线程 的 终止 。 如 果 保 持 一 一 定数 量 的 线程 处 于 pthread_cond_ 
wait 状态 ， 当 某 个 栈 为 空 的 线程 发 现 已 经 有 thread_count -1 个 线程 处 于 等 待 分 配 任 务 的 状 
态 时 ， 它 就 可 以 调用 pthread_cond_broadcast， 让 所 有 睡眠 的 线程 都 醒 来 ， 这 时 就 会 发 现 所 
有 的 线程 都 完成 了 工作 ， 即 可 以 退出 执行 了 。 

终止 状态 

我 们 可 以 使 用 如 程序 6-8 所 示 Terminated 函数 的 伪 代 码 来 代替 while 循环 中 的 Empty 来 

现 树 的 搜索 。 
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程序 6-8 Terminated 遂 数 的 Pthreads 伪 代 码 





1 if (my.stack.size >= 2 && threads_in.cond.wait > 0 && 
2 new-stack == NULL) { 

3 lock term_mutex:; 

4 1f (threads-in-cond-wait > 0 && new-stack == NULL) { 
5 Split my-stack creating new.stactk; 

6 pthread_cond_signalt&term.cond.var): 

7 } 
8 unlock term.mutex; 


9 return 0; /* Terminated = false; don't quit */ 

10 } else if (!Empty(my_stack)) /* Keep working */ 

11 return 0; /* Terminated = false; don't quit */ 

12 } else { /x#* My stack is empty */ 

13 lock term_mutex:; 

14 if (threads-in-cond-wait == thread.count—1i) 

15 /* Last thread running */ 
16 threads-in-Ccond-wait++; 

17 pthread-cond-broadcast(&term-cond-var); 

18 unlock termmutex 

19 return 1; /x Terminated = true; quit */ 

20 } else { /* Other threads stil!l working, wait for work */ 

21 threads.in_cond_wait++; 

22 While (pthread-cond-wait(&aterm-cond-vyvar ，&termmutex) != 0)， 
23 /* We've been awakened */ 

24 if (threads-in-cond-wait《 thread_count) { /* We got work */ 
25 my_-stack = new.stack; 

26 new-stack = NULL; 

27 threads-in-cond-wait 一 ; 

28 unlock term-mutex:; 

29 return 0; /*» Terminated = false */ 

30 } else { /* AIJ threads done */ 

31 unlock term_mutex; 

32 return 1; /* Terminated = true; quit */ 

33 

34 } /x* else wait for work */ 


35 } /* else my-stack is empty */ 





这 里 ， 有 几 个 细节 需要 更 进一步 地 探讨 。 注 意 ; 一 个 线程 在 分 离 自 己 的 栈 之 前 需要 执行 的 代 
码 相 当 复杂 。 在 线程 的 第 1 ~2 行 代码 中 : 

。 检查 栈 中 是 否 拥 有 至 少 两 个 回路 。 

。 检查 是 否 有 线程 等 待 。 

e 检查 变量 new_stack 是 否 为 NULL。 
检查 线程 是 否 有 足够 工作 的 原因 很 清楚 : 如 果 栈 里 的 记录 少 于 两 条 , “分 离 ” 栈 的 操作 就 会 什么 
都 不 做 ， 或 者 导致 两 个 线程 之 间 的 角色 互 换 : 活动 线程 被 某 一 个 等 待 线程 所 替代 。 

而 且 很 清楚 的 是 : 如 果 没 有 线程 等 竺 任务， 分离 栈 的 操作 就 是 没有 必要 的 。 最 后 ， 如 果 某 些 线 
程 已 经 分 离 了 各 自 的 栈 ， 但 等 待 线程 却 没有 检查 新 栈 是 否 为 空 ， 也 就 是 说 ， 此 时 new_stack!= 
NULL， 那 么 分 离 一 个 栈 并 对 现存 的 新 栈 进 行 重 写 的 操作 就 会 导致 出 错 。 要 注意 的 是 ， 某 个 线程 
在 检查 new_stack 后 ， 也 就 是 复制 new_stack 到 自己 私有 的 my_stack 后 ， 必 须 把 new_ 
stack 设置 为 NULL， 这 样 做 非常 有 必要 。 

如 果 以 上 三 个 条 件 都 满足 ， 那 么 就 可 以 尝试 分 离线 程 自己 的 栈 。 我 们 需要 获取 用 于 保护 控制 
终止 条 件 (threads_in_cond_wait、new_stack 和 条 件 变量 ) 的 互 斥 量 。 然 而 ， 条 件 : 


threads-in-Cond_-wait > 0 && new_stack == NULL 
BE 可 能 会 在 开始 等 待 互 斥 量 与 获取 到 互 斥 量 之 间 的 这 段 时 间 内 改变 ， 所 以 就 像 Update_best_ 
tour 一 样 ， 需 要 确保 在 获取 互 斥 量 后 条 件 依然 满足 (第 4 行 )。 一 旦 证 实 了 这 个 条 件 保 持 未 变 ， 
那么 就 可 以 分 离 栈 ， 唤 醒 某 个 等 待 线 程 ， 解 锁 互 斥 量 ， 然 后 返回 去 工作 。 
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如 果 第 1 行 和 第 2 行 的 检查 为 false。 那 么 就 去 检查 一 下 是 否 有 工作 需要 做 ， 即 栈 是 否 为 空 。 
如 果 是 ， 就 返回 去 工作 ; 如 果 不 是 ， 通 过 等 待 、 获 取 终 止 状态 的 互 斥 量 (第 13 行 )， 启 动 终止 线 
程 的 序列 。 一 旦 取得 了 互 斥 量 ， 就 有 两 种 可 能 性 : 

e 这 是 最 后 一 个 进入 终止 序列 的 线程 ， 也 就 是 threads_in_cond_wait == thread_count 

—1。 

se 有 其 他 线程 仍然 在 工作 。 

第 一 种 情况 下 ， 如 果 知 道 其 他 所 有 线程 已 经 做 完了 工作 ， 同 时 该 线程 也 完成 了 任务 ， 那 么 树 搜 索 
就 可 以 终止 了 。 因 此 ， 可 以 调用 pthread_cond_broadcast 通知 所 有 其 他 线程 ， 然 后 返回 
true。 在 执行 广播 前 ， 即 使 广播 是 要 告诉 所 有 的 线程 从 条 件 等 待 返回 ,变量 thread_in_cond_ 
wait 也 需要 加 1。 理 由 是 threads_in_cond_wait 有 双重 作用 : 当 它 小 于 thead_count 时 ， 
它 代表 等 待 线 程 的 数量 ， 当 它 等 于 thread_count 时 ,意味 着 所 有 的 线程 都 做 完了 工作 ， 应 该 
退出 执行 了 。 

第 二 种 情况 下 ， 可 以 调用 pthead_cond_wait (第 22 行 )， 然后 等 待 被 唤醒 。 一 个 线程 有 
可 能 被 除了 pthread_cond_signal 和 pthread_cond_broadcast 以 外 的 操作 晚 醒 。 因 此 ， 
把 调用 pthread_cond_wait 放 在 while 循环 中 ， 这样 ， 如 果 有 其 他 事件 (返回 的 值 非 0) 唤醒 
线程 时 就 会 立即 调用 pthread_cond_wait。 

一 且 被 唤醒 ， 就 需要 考虑 两 种 情况 : 

e threads_in_cond wait《 thread_count 。 

e thread_in_ cond wait == thread_count。 
在 第 一 种 情况 中 ， 我 们 已 知 一 些 线程 已 经 分 离 了 自己 的 栈 ， 生 成 了 更 多 的 工作 。 因 此 可 以 将 最 近 
生成 的 栈 复制 到 自己 的 私有 栈 中 ， 并 设置 变量 new_stack 为 NULL， 并 将 threads_in_cond_ 
wait 的 值 减 1 (第 25 ~27 行 )。 考 虑 到 ， 当 一 个 线程 从 条 件 等 待 返回 时 ， 它 获取 了 条 件 变量 相 
关 的 互 斥 量 ， 因 此 在 返回 前 ， 需 要 释放 互 斥 量 (第 28 行 )。 在 第 二 种 情况 中 ,没有 可 以 做 的 工 
作 ， 所 以 释放 互 斥 量 并 返回 true。 

在 实际 代码 中 ,我 们 发 现 把 条 件 变量 放 入 一 个 独立 的 结构 体 里 非常 方便 。 因 此 ， 可 以 如 下 定义 : 


typedef struct { 
my-stack-t new-stack: 
int threads_in.cond_wait; 
pthread-cond-t term-cond-var; 
pthread_mutext term.mutex; 

} term-struct; 

typedef term_struct* termt; 


termt term; // 9J1obal variabile 


同时 ， 定 义 一 组 函数 ， 一 个 用 于 初始 化 term 变量 ， 一 个 用 于 释放 变量 和 它 的 成 员 。 

在 讨论 分 离 栈 的 函数 前 ， 需 要 注意 一 个 正在 工作 的 线程 在 它 可 以 分 离 栈 前 有 可 能 花费 很 多 时 
间 等 待 term_mutex。 其 他 线程 此 时 可 能 正在 分 离 它们 的 栈 ， 也 有 可 能 正在 进行 条 件 等 待 。 如 果 EI 
担心 这 个 问题 ，Pthreads 提供 了 一 个 非 阻塞 的 替代 方案 (替代 pthread_mutex_lock) ， 称 为 
pthread_ mutex_trylock. 


int pthread-mutex-try10CcKk( 
pthread-mutex-ty mutex.p /* in/out */); 


这 个 函数 尝试 获 取 mutex_p。 但 是 ， 如 果 该 互 斥 量 已 经 被 锁 上 了 ， 那 么 它 不 会 等 待 而 是 直接 返 
回 。 如 果 调 用 线程 成 功 获取 了 互 斥 量 ， 那 么 返回 值 为 0; 否则 ,返回 非 0。 作 为 分 离 栈 操作 前 等 
待 互 斥 量 的 替代 方法 ， 线 程 可 以 调用 pthread_mutex_try1ock。 如 果 成 功 获取 了 term_mu- 
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个 


tex， 就 可 以 如 之 前 的 那样 继续 执行 ， 如 果 没 有 ， 就 会 直接 返回 。 

分 离 栈 

因为 我 们 的 目标 是 平衡 线程 之 间 的 负载 ， 所 以 我 们 应 尽量 确保 新 栈 中 任务 的 数量 与 留 在 原 栈 
中 任务 的 数量 一 致 。 我 们 无 法 提前 知道 从 某 个 部 分 回路 开始 搜索 子 树 的 实际 工作 量 有 多 少 ， 所 以 
我 们 不 可 能 保证 对 任务 进行 等 量 划 分 。 但 是 可 以 采用 之 前 初始 化 分 配子 树 的 方法 : 从 两 个 拥有 同 
样 数目 城市 的 部 分 回路 开始 出 发 的 子 树 有 类 似 的 结构 。 因 为 两 个 拥有 同样 数目 城市 的 部 分 回路 很 
有 可 能 在 任务 量 上 也 是 接近 一 致 的 ， 所 以 可 以 基于 边 的 数目 来 划分 栈 。 边 数量 最 少 的 回路 留 在 原 
始 栈 里 ， 数 量 接近 最 少 边 数 的 部 分 回路 分 配给 新 栈 ， 下 一 个 次 少 边 数 的 部 分 回路 保留 在 原始 栈 
中 ， 然 后 以 次 类 推 地 分 配 下 去 。 

上 述 思路 是 比较 容易 实现 的 ， 因 为 栈 中 保留 的 回路 的 边 数 是 依次 递增 的 。 也 就 是 说 ， 从 栈 底 
到 栈 顶 ， 每 条 栈 记录 保存 的 回路 边 数 是 递增 的 。 因 为 当 我 们 把 一 个 新 的 有 堪 条 边 的 部 分 回路 压 人 
栈 时 ， 紧 邻 它 之 前 的 记录 就 有 上 下 或 者 大 -1 条 边 。 可 以 从 栈 的 底部 开始 划分 ， 并 依次 轮流 把 回路 压 
和 人 旧 栈 和 新 栈 中 ， 所 以 回路 0 会 留 在 旧 栈 中 ， 回 路 1 会 分 配 到 新 栈 中 ， 回 路 2 会 留 在 旧 栈 中 ， 依 
次 这 样 分 配 下 去 。 如 果 栈 是 用 一 个 回路 数组 来 实现 的 ， 那 么 就 需要 对 旧 栈 进行 “压缩 ”， 以 消除 
因为 移出 部 分 回路 所 产生 的 空白 。 如 果 栈 是 用 链表 来 实现 的 ， 就 不 必要 执行 压缩 了 。 

可 以 进一步 考虑 到 ， 拥 有 很 多 城市 的 部 分 回路 不 会 导致 很 重 的 工作 负载 ， 因 为 以 这 些 回路 为 
根 的 子 树 都 很 小 。 因 此 可 以 增加 一 个 “截止 大 小 ” (cutoff size ) ， 如 果 城 市 的 数量 不 小 于 该 截止 
大 小 ， 就 不 重新 分 配 任务 。 在 共享 内 存 并 采用 基于 数组 的 栈 的 设置 下 ， 因 为 回路 (是 一 个 指针 ) 
会 复制 到 新 栈 中 或 者 分 配 到 旧 栈 的 新 位 置 ， 所 以 分 离 栈 时 重新 分 配 回路 不 会 增加 分 离 栈 的 开销 。 
将 在 编程 作业 6. 6 中 讨论 这 种 方法 。 


6.2.8 Pthreads 树 搜索 程序 的 评估 
表 6-8 显示 了 两 个 有 15 个 城市 的 Pthreads 程序 的 性 能 。“ 串 行 ” 列 给 出 了 第 二 种 迭代 方案 
(把 每 一 个 新 的 回路 压 人 栈 中 ) 的 运行 时 间 。 作 为 参考 ， 表 中 的 第 一 个 问题 采用 类 似 于 表 6-7 中 
的 测试 方法 ，Pthreads 和 串 行 实现 都 是 在 同一 个 系统 下 测试 。 运 行 时 间 以 秒 为 单位 。 在 动态 划分 
版 本 的 程序 运行 时 间 旁 边 的 括号 里 ， 给 出 的 是 栈 被 分 离 的 总 次 数 。 
表 6-8 树 搜索 Pthreads 程序 的 运行 时 间 (单位 : 秒 ) 
第 一 个 问题 第 二 个 问 是 
串 行 静态 动态 串 行 静态 动态 
1 32.9 32.7 34.7 (0) 26.0 25.8 27.5 (0) 
2 27.9 28.9 (7) 25.8 19.2 (6) 
4 25.7 25.9 (47) 25.8 9.3 (49) 
8 23.8 22.4 (180) 24.0 5.7 (256) 














从 运行 时 间 可 以 看 出 ,不同 的 问题 会 有 不 一 样 的 结果 。 例 如 ， 使 用 静态 划分 的 程序 通常 在 第 一 
个 问题 上 表现 得 比 动态 划分 好 。 然 而 ， 在 第 二 个 问题 上 上， 静态 划分 程序 的 性 能 与 线程 数 没有 什么 关 
系 ， 而 动态 划分 程序 却 有 更 好 的 性 能 。 一 般 来 说 ， 动 态 划分 程序 的 可 扩展 性 比 静 态 划 分 程序 要 好 。 

随 着 线程 数量 的 增加 ， 私 有 栈 的 大 小 会 变 小 ， 因 此 线程 会 更 容易 早 些 完成 工作 。 可 以 预测 的 
是 ， 当 某 些 线程 处 于 等 待 状态 时 ， 其 他 线程 分 离 自己 的 栈 ， 所 以 随 着 线程 数量 的 增加 ， 分 离 栈 的 
操作 会 增加 。 这 两 个 问题 都 证 实 了 这 个 预测 。 

需要 注意 的 是 ， 如 果 输 入 问题 有 多 于 一 个 可 行 解 ， 也 就 是 说 ,不同 的 回路 有 同样 大 小 的 代价 ， 
这 两 种 程序 的 结果 都 是 不 确定 的 。 在 静态 程序 里 ， 最 佳 回 路 的 顺序 依赖 于 线程 执行 的 速度 ， 而 这 个 
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顺序 决定 哪些 树 结 点 被 访问 。 在 动态 程序 里 ， 结 果 同 样 是 不 确定 的 ， 因 为 不 同 的 运行 可 能 会 导致 线 
程 划分 刘 栈 和 接收 新 栈 的 地 方 是 不 同 的 。 这 会 导致 运行 时 间 ， 尤 其 是 动态 运行 时 间 变 化 很 大 。 315 


6. 2.9 采用 OpenMp 实现 的 并 行 化 树 搜索 程序 
这 个 问题 涉及 采用 OpenMp 实现 静态 和 动态 并 行 化 树 搜索 程序 ， 有 些 类 似 于 Pthreads 采用 的 
方法 。 
在 静态 并 行 化 方面 ， 采 用 OpenMp 和 采用 Pthreads 几乎 没有 什么 不 同 。 但是， 也 有 一 些 要 点 
® 在 Pthreads 中 的 一 个 独立 线程 执行 某 部 分 代码 时 ， 测 试 : 


if (my-rank == whatever) 


可 以 被 OpenMp 的 指令 : 


# pragma omp single 


替代 。 

这 样 做 能 确保 接 下 来 的 结构 化 代码 块 由 线程 组 中 的 一 个 线程 执行 ， 而 组 内 其 他 线程 会 等 
待 直 到 该 线程 执行 结束 (在 代码 块 的 最 后 设置 一 个 隐 式 的 路 障 )。 

当 whatever 等 于 0 时 (正如 Pthreads 程序 里 测试 的 那样 ) ， 可 以 用 OpenMp 的 指令 : 


# pragma omp master 


蔡 代 。 
这 样 能 确保 由 线程 0 来 执行 接 下 来 的 结构 化 代码 块 。 然 而 ，master 指令 不 会 在 代码 块 的 
最 后 设置 隐 式 的 路 障 ， 所 以 很 有 必要 在 代码 块 的 最 后 加 入 一 条 barrier 指令 。 
Pthreads 里 用 于 保护 最 佳 回 路 的 互 斥 量 可 以 被 一 条 critical 指令 所 替代 ， 这 个 操作 可 以 
发 生 在 Update_best tour 函数 内 部 或 者 调用 Update_best_tour 函数 前 。 这 是 在 初 
始 化 分 配 回路 后 唯一 个 可 能 存在 竞争 的 地 方 ， 所 以 简单 的 critical 指令 不 会 导致 某 个 
线程 一 直 阻 塞 。 

动态 负载 均衡 的 Pthreads 实现 严重 依赖 于 Pthreads 的 条 件 变量 ， 而 OpenMp 没有 提供 这 样 一 
个 类 似 的 实现 。 剩 余 其 他 的 Pthreads 代码 可 以 很 容易 地 转换 为 OpenMp 代码 。 实 际 上 ，OpenMp 其 
至 还 提供 了 非 阻 塞 版 本 的 omp_set_1ock。 提 供 的 锁 对 象 类 型 是 omp_1ock_t, 下面 分 别 是 获取 
和 释放 锁 的 函数 : 


void omp-set_lock(omp-lock_t* lock-p /* in/out */); 

void omp-unset.lock(omp-lock_t* 1ock-p /* in/out #*/); 
它 还 提供 了 函数 : 

int omp-test.lock(omp-lock_t* lock.p /* in/out */); 


这 个 函数 类 似 于 pthread_mutex_trylock; 它 尝试 去 获取 锁 * 10ck_p， 如 果 成 功 获 取 ， 就 返 
回 非 0 值 。 如 果 该 锁 已 经 被 其 他 线程 获取 了 ， 它 就 立即 返回 0 值 。 

如 果 查 看 一 下 程序 6-8 中 Pthreads Terminated 函数 的 伪 代 码 ， 就 会 发 现 为 了 把 Pthreads 版 
本 修改 为 OpenMp 形式 ,需要 模拟 Pthreads 的 函数 调用 : 


pthread-cond-signa1(&term-cond-var); 
pthread-cond-broadcast(&term-cond-var ) ; 
pthread-cond-wait(&term-cond-var ，&term-mutex); 


这 三 个 函数 调用 分 别 在 程序 的 第 6 行 、 第 17 行 和 第 22 行 。 
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回忆 一 下 ， 线 程 通过 以 下 调用 进 和 条件 等 待 : 


pthread_cond.wait(&term_cond_var, &termmutex); 


这 样 的 调用 会 等 待 两 种 事件 : 

。 另 一 个 线程 已 经 分 离 了 自己 的 栈 ， 并 为 正在 等 待 的 线程 创建 了 任务 。 

。 所 有 的 线程 都 完成 了 工作 。 

在 OpenMp 里 ,模拟 条 件 等 待 最 简单 的 一 种 做 法 就 是 使 用 忙 等 待 。 因 为 等 待 线程 需要 测试 两 
个 条 件 ， 可 以 在 忙 等 待 循环 里 使 用 两 个 不 同 的 变量 。 


/* Globa!l variables */ 
int awakened-thread = -1; 
int work.remains = 1; /* true */ 


while (awakened_thread != my-rank && work.remains); 


这 两 个 变量 的 初始 化 是 非常 重要 的 ; 如 果 awakened_thread 初始 化 为 某 些 线程 的 线程 号 ， 那 么 
这 个 线程 就 会 立即 从 while 循环 中 退出 ， 但 这 时 可 能 还 有 工作 可 以 做 。 类 似 地 ， 如 果 work_re- 
mains 初始 化 为 0， 那么 所 有 的 线程 都 会 立即 从 while 循环 中 退出 并 退出 执行 。 

正如 之 前 分 析 过 的 ，Pthreads 中 的 某 个 线程 进入 条 件 等 待 时 ， 它 会 释放 与 条 件 变量 相关 的 互 
斥 量 ， 以 使 得 另 一 个 线程 可 以 进 人 条 件 等 待 或 者 发 信号 唤醒 等 待 线程 。 因 此 ， 可 以 在 开始 while 
循环 前 释放 在 Terminated 函数 中 使 用 的 锁 。 

当 一 个 线程 从 Pthreads 条 件 等 待 返回 时 ， 它 会 释放 与 条 件 变 量 相关 的 互 斥 量 。 这 是 非常 重要 
的 ， 因 为 如 果 已 经 唤醒 的 线程 接收 了 工作 ， 那 么 它 就 需要 获取 存放 在 新 栈 的 共享 数据 结构 。 因 
此 ， 完 整地 模拟 条 件 等 待 应 该 类 似 于 : 


/* Global vars */ 
int awakened_thread = -1: 
work_remains = 1; /* true */ 


omp_unset_1ock(&term_lock); 
while (awakened-thread !L= my-rank && work-remains ) ; 
omp-set-1ocK(&term-1ock); 


如 果 回 想 一 下 4.5 节 的 忙 等 竺 和 习题 4. 3 的 讨论 ， 就 知道 编译 器 可 能 会 对 忙 等 待 循环 的 代码 
进行 重新 排序 。 但 编译 器 不 应 该 对 omp_set_lock 和 omp_upset_lock 进行 重新 排序 。 然 而 ， 
对 变量 的 更 新 可 以 会 重新 排序 ， 所 以 如 果 使 用 编译 器 优化 ， 就 需要 对 这 两 个 函数 使 用 v01atile 
关键 字 进行 声明 。 

对 条 件 广播 (condition broadcast) 的 模拟 是 很 直接 的 ， 当 一 个 线程 确定 不 再 有 工作 需要 执行 
时 (程序 6-8 中 的 第 14 行 )， 条 件 广播 (第 17 行 ) 可 以 用 下 面 的 表达 式 替 代 : 


work-remains = 0; /x Assign false to work.remains */ 


被 “唤醒 ”的 线程 可 以 测试 它们 是 否 是 由 某 些 线程 设置 work_remains 为 false 所 唤醒 的 ， 如 果 
是 这 样 ， 就 从 Terminated 返回 ， 返 回 值 为 true。 

对 条 件 信号 量 (condition signal) 的 模拟 需要 多 做 一 点 工作 。 已 经 分 离 了 栈 的 线程 需要 选 
择 一 个 正 处 于 睡眠 状态 的 线程 ， 并 把 awakened_thread 变量 赋值 为 被 选中 的 被 唤醒 线程 的 线 
程 号 。 因 此 ， 至 少 要 维持 一 组 处 于 睡眠 状态 线程 的 线程 号 的 列表 。 解 决 这 个 问题 的 一 个 简单 做 
法 是 ,使 用 一 个 线程 号 共享 队列 。 当 某 个 线程 完成 任务 后 ， 就 在 进入 忙 等 待 循环 前 把 它 的 线程 
号 加 和 到 队列 中 。 当 一 个 线程 分 离 栈 时 ， 它 就 可 以 通过 出 队列 操作 选择 一 个 睡眠 线程 ， 并 把 它 
唤醒 。 
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got-10ck = omp-test_-1ock(&term-iock): 
if (got_lock != 0) { 
if (waiting-threads > 0 && new-stack == NULL) { 
Split my-stack creating new_stack:; 
awakened.thread = Dequeue(term-queue ) ; 


} 
omp-unset.lock(&term_lock); 
} 


在 从 调用 的 Terminated 函数 返回 前 ， 被 唤醒 的 线程 需要 重 置 awakened_thread 为 -1。 

其 他 线程 在 被 唤醒 的 线程 重新 取得 锁 前 被 唤醒 是 没有 什么 危害 的 。 只 要 new_stack 是 非 
NULL 〈 空 ) ， 就 不 会 有 线程 尝试 分 离 栈 ， 因 此 也 不 会 有 线程 唤醒 另外 一 个 线程 。 所 以 ， 如 果 一 个 
线程 在 被 唤醒 的 线程 重新 获取 锁 前 调用 Terminated， 那 么 如 果 它 们 的 栈 是 非 空 的 ， 它 们 就 会 返 
回 ， 或 者 如 果 它 们 的 栈 为 空 ， 它 们 就 会 进入 等 待 。 


6.2. 10 OpenMp 实现 的 性 能 

表 6-9 是 有 15 个 城市 的 旅行 商 问题 的 两 种 OpenMP 实现 的 运行 时 间 ， 该 问题 与 Pthreads 实现 8 他 
和 串 行 测试 里 的 问题 是 一 样 的 ,并且 运行 在 同一 个 系统 里 。 为 了 方便 对 比 ， 我 们 也 标 出 了 
Pthreads 实现 的 运行 时 间 。 运 行 时 间 是 以 秒 为 单位 ， 插 号 内 的 数字 是 动态 实现 里 栈 被 划分 的 总 
次 数 。 


表 6-9 树 搜索 的 OpenMP 和 Pthread 实现 的 性 能 ( 单位: 秒 ) 








第 一 个 问题 第 二 个 问题 
线程 静态 动态 静态 动态 
OMP Pth OMP * Pth OMP Pith OMP Pth 
1 32.5 327 33.7 (0) 34.7 (0) 25.6 25.8 266 (0) 27.5 (0) 
2 27.7 27.9 28.0 (6) 28.9 (7) 25.6 25.8 18.8 (9) 19.2 (6) 
4 25.4 25.7 33.1 (75) 25.9 (47) 25.6 25.8 9.8 (52) 9.3 (49) 
8 28.0 23.8 19.2 (134) 22.4 (180) 23.8 ”24.0 6.3 (163) 5.7 (256) 


在 大 部 分 情况 下 ，OpenMp 实现 可 以 与 Pthreads 实现 的 性 能 相当 。 这 并 不 令 人 惊奇 ， 因 为 系 
统 运 行 在 一 个 八 核 平 台 上 ， 忙 等 待 并 不 会 降低 系统 的 总 体 性 能 ， 除 非 使 用 超过 核 数量 的 线程 。 

对 第 一 个 问题 来 说 ， 有 两 个 比较 特别 的 例外 。 采 用 8 个 线程 的 静态 OpenMp 实现 的 性 能 比 
Pthreads 实现 的 性 能 要 差 ， 采用 4 个 线程 的 动态 OpenMP 实现 比 Pthreads 实现 的 性 能 要 差 。 这 可 能 
是 由 于 程序 的 不 确定 性 导致 的 ， 不 过 我 们 还 需要 更 详细 的 资料 来 确定 原因 。 


6.2. 11 采用 MPI 和 静态 划分 来 实现 树 搜索 - 

采用 Pthreads 和 OpenMP 的 静态 并 行 化 树 搜索 中 绝 大 多 数 的 代码 ， 是 直接 借鉴 第 二 个 串 行 化 
迭代 树 搜索 的 实现 。 实 际 上 ， 唯 一 的 不 同 之 处 是 ， 在 线程 开始 时 对 树 的 初始 划分 和 Update_ 
best_tour 函数 。 因 此 我 们 希望 MPI 实现 也 只 需要 对 这 部 分 代码 进行 少量 修改 ， 实 际 上 也 正 是 
如 此 。 

MPI 程序 中 一 个 常见 的 问题 是 需要 分 配 输 入 的 数据 和 收集 结果 。 为 了 构建 一 条 完整 的 回路 ， 
进程 需要 为 每 一 个 结 点 选择 一 条 进入 该 结 点 和 离开 该 结 点 的 边 。 因 此 ， 对 每 一 个 加 入 回路 的 城 
市 ， 回 路 都 需要 邻接 矩阵 中 该 城市 对 应 的 一 行 和 一 列 的 数据 ， 因 此 如 果 每 个 进程 都 可 以 存 取 整 个 
邻接 矩阵 就 会 十 分 方便 。 同 时 邻接 和 矩阵 所 占用 的 存储 空间 相对 较 小 ， 即 使 我 们 有 100 个 城市 ， 矩 
阵 也 不 可 能 需要 超过 80 000 字 节 的 存储 空间 ， 所 以 只 要 进程 0 读 取 和 矩阵 并 将 其 传送 给 其 他 进程 就 
可 以 了 。 

一 旦 各 个 进程 角 了 邻接 和 矩阵 的 副本 ， 大 多 数 的 树 搜索 任务 都 可 以 像 Pthreads 和 OpenMP 的 实 
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现 那 样 进行 。 其 中 最 主要 的 不 同 在 于 : 

。 划分 树 。 

。 测试 和 更 新 最 佳 回 路 。 

。 在 搜索 终止 后 ， 保 证 进程 0 有 一 个 最 佳 回 路 的 副本 用 于 输出 。 
我 们 将 在 下 面 依次 讨论 上 面 的 问题 。 

划分 树 

在 Pthreads 和 OpenMP 的 实现 里 ， 线 程 0 使 用 广度 优先 搜索 来 搜索 树 ， 直 至 部 分 回路 的 数量 至 
少 为 thread_count 才 停止 。 然 后 ， 每 个 线程 选取 它 应 该 得 到 的 初始 部 分 回路 ， 并 把 这 些 回路 压 人 
自己 的 私有 栈 中 。 很 明显 ，MPI 的 进程 0 也 可 以 生成 一 组 数目 为 comm_sz 的 部 分 回路 。 然 而 ， 因 为 
不 是 共享 内 存 系统 ， 所 以 需要 将 各 条 初始 部 分 回路 发 送 给 合适 的 进程 。 在 此 可 以 通过 一 个 发 送 循环 
来 做 这 个 工作 ， 而 分 发 这 些 初始 部 分 回路 的 操作 类 似 于 MPI_scatter。 实 际 上 ， 不 能 使 用 MPI_ 
Scatter 的 唯一 原因 是 ， 初 始 部 分 回路 的 数目 无 法 被 comm_sz 所 整除 。 如 果 这 个 问题 发 生 ， 进 程 
0 就 无 法 发 送 相同 数量 的 回路 给 每 个 进程 , 但 MPI_Scatter 需要 发 送 相 同 数量 的 对 象 给 每 个 进程 。 

幸运 的 是 ， 存 在 一 个 MPI_Scatter 的 变 体 ，MPI_Scattervy， 它 可 以 用 来 发 送 不 同 数 量 的 
对 象 给 不 同 的 进程 。 首 先 ， 回 顾 一 下 MPI_Scatter 的 语法 : 


MPI_Scatter 
int MPI-Scatter( 


votd sendbuf /* in #*/, 
int sendcount /* in */, 
MPI_Datatype sendtype /x in #*/, 
void* recvbuf /* Out */， 
int recvcount /A*# 7n #*/, 
MPI_Datatype recvtype /* in #*/, 
int root /A# In 本/ 
MPI_Comm comm /A# in #*/); 


进程 root 从 sendbuf 发 送 sendcount 个 sendtype 的 对 象 给 comm 中 每 个 进程 。comm 中 的 
每 个 进程 接收 recvcount 个 recvtype 的 对 象 到 recvbuf 中 。 大 部 分 时 间 ，sendtype 和 re- 
cyvtype 是 一 样 的 ，sendcount 和 recvcount 也 是 一 样 的 。 在 任何 情况 下 ， 明 显 进程 root 必 
须发 送 相同 数目 的 对 象 给 每 个 进程 。 

另外 ，MPI_Scattery 的 语法 如 下 : 


int MPpI_Scattervt( 


void* sendbuf /# in #*/, 
int* sendcounts /A# TI #*/, 
jnt* displacements As in x*/, 
MPI-Datatype sendtype As im #/, 
V0id* recvbuf /rs OUt 二/ 
int recvcount /we in */, 
MPI_Datatype recvtype /x 71n */, 
int root /A# in #*/, 
MPI_Comm COmm Au in */) 


MPI_Scatter 中 的 参数 sendcount 被 两 个 数组 参数 sendcounts 和 displacements 所 代替 。 
这 两 个 数组 都 含有 comm_sz 个 元 素 ; sendcounts[ qj] 是 发 送 给 进程 g 的 sendtype 类 型 的 对 象 
数量 。 此 外 ，displacements[ qj] 表示 发 送 给 进程 g 的 块 的 起 始点 。 偏 移 量 (displacement) 的 
计算 是 以 sendtype 为 单位 的 。 所 以 ， 如 果 sendtype 是 MPI_INT, 并 且 sendbuf 有 类 型 int 
* ， 那 么 发 送 给 进程 g 的 数据 的 起 始 位 置 是 : 


sendbuf + displacements[q] 


总 的 来 说 ，disp1lacements[ 9] 表 示 进 程 g 的 数据 在 sendbuf 中 的 偏 移 量 。 数 据 块 的 “单位 ” 
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宽度 和 sendtype 的 单位 宽度 相同 。 . 
类 似 地 ，MPI1_Gatherv 可 以 用 来 代替 MPI_Gather : 


int MPI-Gatherv 


VoOid* sendbuf /# in x#/, 
int sendcount /* in */, 
MPI-Datatype sendtype /* in #*/, 
voOid* recvbuf /# Out */, 
intx* recvcounts /# TI #*/, 
int* displacements /A* In #/, 
MPI-Datatype recvtype /# in */, 
int root /*# in 本 /， 
MPI.Comm Comm /A* In #*/); 
维持 最 佳 回路 


正如 我 们 前 面 讨论 并 行 化 树 搜索 时 所 观测 到 的 那样 ， 让 每 个 进程 各 自 计 算 最 佳 回 路 很 可 能 
造成 很 多 计算 上 的 浪费 ,因为 有 些 进 程 的 最 佳 回路 可 能 比 其 他 进程 的 绝 大 多 数 回 路 代价 大 
(见习 题 6. 21 ) 。 因 此 ， 当 一 个 进程 发 现 了 一 个 新 的 最 佳 回 路 时 ， 它 应 该 把 这 个 回路 发 送 给 其 
他 进程 。 

首先 要 注意 的 是 ， 当 一 个 进程 发 现 了 一 个 新 的 最 佳 回 路 时 ， 它 只 需要 发 送 该 最 佳 回路 的 代价 
给 其 他 进程 。 每 个 进程 在 调用 Best_tour 时 只 使 用 当前 最 佳 回 路 的 代价 。 当 然 ， 当 一 个 进程 更 
新 最 佳 回路 时 ， 它 不 关心 上 一 个 最 佳 回路 所 包含 的 城市 ; 它 只 关心 上 一 个 最 佳 回 路 的 代价 要 比 新 
的 最 佳 回 路 的 代价 大 。 

在 进行 树 搜 索 的 过 程 中 ， 当 一 个 进程 需要 发 送 新 的 最 佳 回 路 的 代价 给 其 他 进程 时 ， 不 能 使 用 
MPI_Bcast， 因 为 MPI_Bcast 是 阻塞 式 的， 而 且 通 信子 里 的 每 个 进程 都 必须 调用 MPI_8cast。 
然而 ， 在 并 行 化 树 搜 索 中 ， 知 道 需要 执行 广播 操作 的 唯一 进程 是 发 现 了 新 的 最 佳 回 路 的 进程 。 如 
果 使 用 MPI_Bcast， 该 进程 就 很 有 可 能 阻塞 在 调用 处 永 不 返回 ， 因 为 它 是 唯一 调用 MPI_Bcast 
的 进程 。 因 此 ， 我 们 需要 设 定 新 的 发 送 方式 ， 这 种 方式 不 会 造成 发 送 进程 永久 阻塞 。 

MPI 提供 了 多 种 可 行 的 方案 。 最 简单 的 方法 就 是 让 发 现 新 的 最 佳 代价 的 进程 调用 MPI_Send， 
把 数据 发 送 给 所 有 其 他 的 进程 


for (dest = 0; dest《 comm.sz; dest++) 
if (dest != my-rank) 
MPI-Send(&new-best-cost ，1，MPI_INT，dest，NEW-COST_TAG ， 
comm); 


这 里 ， 在 程序 中 使 用 了 一 个 特殊 的 标志 ，NEW_C0ST_TAG。 它 告诉 接收 进程 ， 消 息 是 一 个 新 的 代 
价 ， 而 不 是 其 他 类 型 的 消息 (比如 ， 回 路) 。 

目标 进程 可 以 周期 性 地 检查 新 的 最 佳 回 路 代价 的 到 达 。 不 能 使 用 MPI_Recv 测试 消息 ， 因 为 
它 是 阻塞 式 的 ， 如果 一 个 进程 调用 


MPI_Recv(&received-cost，1，MpPI_INT，MPI-ANY_SOURCE ，NEW-C0OST_TAG ， 
Comm，&status ) ; 


那么 进程 会 阻塞 直到 一 个 匹配 的 消息 到 达 。 如 果 没有 消息 到 达 ( 例如 没有 进程 发 现 新 的 最 佳 回 路 
代价 ) ， 那 么 进程 就 会 挂 起 。 幸 运 的 是 ，MPI 提供 了 一 个 只 测试 是 否 有 消息 可 用 的 函数 ; 它 不 会 
真 地 接收 消息。 这 个 函数 就 是 MPI_Iprobe， 它 的 语法 如 下 : 


int MPI_Iprobet 


int source /# in */, 
int tag /Ar in */, 
MPI_Comm COmm A* in */, 
int* msg-avail_p /* OUt */, 


MPI_Statusx status_p /* OUt */) 
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它 检查 在 通信 子 中 来 源 为 进程 Source、 标志 为 tag 的 消息 是 否 可 用 。 如 果 这 条 消息 可 用 , 将 * 
msg_avail1_p 赋值 为 true, 将 * Status_p 的 成 员 赋予 恰当 的 值 。 例 如 ， 将 status_p 一 MPI_ 
SOURCE 赋予 接收 到 消息 来 源 的 线程 号 。 如 果 没 有 可 用 的 消息 , 将 * msg_avail1_p 赋值 为 false。 
参数 source 和 tag 分 别 可 以 是 通配符 MPI_ANY_SOURCE 和 MPI_ANY_TAG。 所 以 ， 为 了 检查 来 
自任 一 进程 具有 新 代价 的 消息 ， 可 以 调用 : 


MPI-Iprobe(MPI-ANY-SOURCE ，.NEW-COST-TAG，Ccomm，&msg-avail，&status) 


如 果 msg_avail 是 tue， 那么 可 以 通过 调用 MPI_Recyv 来 接收 新 的 代价 。 


MPI-Recv(&received-cost ，1，MPI_INT，status .MPI_SOURCE, 
NEW_-COST-TAG ，comm，MPI-STATUS-IGNORE ) ; 


能 够 这 样 做 的 一 个 最 合适 的 地 方 是 在 Best_tour 函数 里 。 在 检查 是 否 新 的 回路 是 最 佳 回路 前 ， 
可 以 用 程序 6-9 中 的 代码 来 测试 来 自 其 他 进程 的 新 回路 代价 。 


程序 6-9 检查 最 佳 回路 代价 的 MPI 代码 


MPI_Iprobe(MPI_ANY.SOURCE, NEW-COST_TAG, comm, &msg-avail, 
&status); 
while (msg.avail) { 
MPI_Recv(&received_cost, 1, MPI.INT, status.MPI_SOURCE, 











NEW_COST_TAG, comm, MPI_STATUS_IGNORE); 
if (receivedcost < best-tour-cost) 
best-tour-cost = received.cost; 
MPI_Iprobe(MPI_ANY_SOURCE, NEW_COST_TAG, comm, &msg.avail, 
&status); 
} /A* while */ 





这 段 代码 不 断 接 收 那些 可 用 的 新 回路 代价 。 每 次 接收 的 新 代价 如 果 比 当前 最 佳 回路 代价 小 ， 
那么 变量 best_tour_cost 就 会 得 到 更 新 。 

你 是 否 发 现 这 种 策略 存在 问题 呢 ? 如 果 发 送 者 没有 缓冲 功能 ， 那 么 对 MPI_Send 的 循环 调用 
会 导致 发 送 进程 阻塞 直到 提交 一 个 相 匹 配 的 接收 。 如 果 其 他 所 有 进程 已 经 完成 了 搜索 ， 那 么 发 送 
进程 就 会 被 挂 起 。 所 以 循环 调用 MPI_Send 是 不 安全 的 。 

MPI 针对 这 个 问题 提供 了 多 种 解决 方法 : 缓冲 发 送 和 非 阻塞 发 送 。 下 面 讨论 缓冲 发 送 ， 习 题 
6. 22 讨论 非 阻塞 发 送 。 

发 送 模式 和 缓冲 发 送 

MPI 为 发 送 操作 提供 了 四 种 模式 : 标准 (standard) 、 同 步 〈synchronous ) 、 就 绪 (ready) 和 
缓冲 〈buffered) 。 不 同 的 模式 对 于 发 送 函 数 具 有 不 同 的 语法 。 我 们 最 开始 了 解 的 MPI_Send 是 标 
准 模式 。 在 不 同 模式 下 ，MPI 实现 决定 是 将 消息 的 内 容 复制 到 自己 的 存储 空间 ， 还 是 一 直 阻 塞 到 
一 个 相 匹配 的 接收 操作 被 提交 。 在 同步 模式 下 ， 发 送 操作 会 一 直 阻 塞 到 一 个 相 匹配 的 接收 操作 被 
提交 。 在 就 绪 模 式 下 ， 在 发 送 操作 前 会 有 一 个 相 匹 配 的 接收 操作 被 提交 ， 否 则 发 送 操作 就 是 错误 
的 。 在 缓冲 模式 下 ， 如 果 一 个 相 匹 配 的 接收 操作 还 没有 被 提交 ， 那 么 MPI 实现 必须 复制 消息 到 本 
地 存储 空间 。 本 地 存储 空间 必须 由 用 户 程序 提供 ， 而 不 是 MPI 实现 。 | 

每 种 模式 有 一 个 不 同 的 函数 : MPI_Send、MPI_Ssend、.MPI_Rsend 和 MPI_Bsend， 但 这 些 
函数 的 参数 都 与 MPI_Send 相 类 似 。 


int MPI-XSend( 


void* message /* in */, 
int message_size /* in */, 
MPI-Datatype message.type /x in */, 
int dest /* Tn */, 
int tag /* in */, 


MPI_Comm COmm /¥ in #*/); 
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函数 MPI_Bsend 使 用 的 缓冲 区 必须 通过 调用 函数 MPI_Buffer_attach 来 指定 : 
int MPI_Buffer_attacht( 


void* buffer /* in */, 
int buffer_size /x in */); 


参数 buffer 是 指向 由 用 户 程序 分 配 的 一 块 内 存 空 间 的 指针 ，buffer_size 是 这 块 空间 以 字 节 
为 单位 的 大 小 。 之 前 “连接 ”的 缓冲 区 可 以 由 下 面 的 销 数 回收 : 


tnt MPI_Buffer_detacht 
voidx buf.p /# OUt #/, 
int* buf-size-p /* Out */); 


参数 buf_p 返回 的 是 之 前 分 配 的 块 内 存 的 地 址 ，* buf_size_p 是 内 存 块 的 大 小 。 调 用 MPI.. 
Buffer_detach 会 阻塞 直到 buffer 中 的 消息 被 传送 完 。 因 为 buf_p 是 输出 参数 ， 所 以 应 该 采 
用 操作 符 &。 例 如 : 


char buffer[1000]， 

char* buf; 

int buf_size: 
MPI.Buffer.attach(buffer, 1000):; 
/x Calls to Mp1.Bsend */ 


MPIBuffer_detach(&buf， &buf-size); 


在 程序 里 的 任意 执行 点 ， 只 能 连接 一 个 用 户 提供 的 缓冲 区 。 所 以 ， 如 果 存 在 多 个 没有 完成 的 
缓冲 发 送 操作 ， 则 需要 预 估 缓冲 数据 的 大 小 。 当 然 ， 我 们 不 能 知道 数据 的 确切 大 小 ， 但 我 们 知道 
在 任何 一 次 最 佳 回路 的 “广播 ”中 ， 进 行 广播 操作 的 进程 调用 MPI_Bsend 的 次 数 是 commm_sz 
-1， 并 且 每 次 调用 会 发 送 一 个 int 型 整数 。 我 们 可 以 确定 一 次 广播 所 需要 的 缓冲 区 的 大 小 。 被 


传送 的 数据 需要 的 存储 空间 大 小 可 以 通过 调用 MPI_Pack.size 来 计算 : B24 
int MPI-Pack-sjzel 
int count /x In */, 
MPI-Datatype datatype /* in #*/, 
MPI_Comm comm /* in #*/, 
intx* Size-p [OUt */); 


输出 参数 给 出 了 一 条 消息 所 需 空间 大 小 的 上 界 。 然 而 这 还 不 够 。 除 了 数据 以 外 ,一 条 消息 还 需要 
存储 包括 发 送 目的 地 、 标 志 、 通 信子 等 信息 ， 所 以 对 于 每 条 消息 ， 都 需要 多 余 的 开销 。MPI 针对 
这 些 增加 的 开销 给 出 了 上 界 常 数 : MPI_BSEND_0VERHEAD。 对 于 每 次 广播 ， 下 面 的 代码 决定 了 
所 需 存储 空间 的 大 小 : 


int data.size; 
int message.size; 
int bcast_buf.size: 


MPI.Pack_size(1, MPI_INT, comm, &data_size): 
message.size = data_size + MPI-BSEND_OVERHEAD， 
bcast-buf-size = (Comm-sz 一 1)*message.size: 


我 们 可 以 猜测 广播 次 数 的 上 界 ， 然 后 乘 以 bcast_buf_size， 就 能 够 得 到 需要 连接 的 缓冲 区 的 大 
小 。 

输出 最 佳 回路 

当 程 序 结束 时 ， 我 们 希望 打印 出 最 佳 回路 和 它 的 代价 ， 所 以 需要 把 回路 发 送 给 进程 0。 开 
始 ， 我 们 似乎 可 以 这 么 做 : 每 个 进程 存储 自己 本 地 的 最 佳 回 路 ， 在 树 搜索 操作 完成 后 ， 每 个 进 
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程 把 自己 的 最 佳 回路 代价 和 全 局 最 佳 回 路 代价 进行 比较 。 如 果 两 者 相同 ， 那 么 进程 就 把 自己 本 
地 的 回路 发 送 给 进程 0。 然 而 ， 这 里 存在 几 个 问题 。 第 一 ，TSP 有 向 图 很 有 可 能 存在 多 个 相同 
代价 的 最 佳 回 路 ， 即 不 同 的 进程 会 发 现 不 同 的 回路 。 如 果 这 种 情况 发 生 ， 那 么 多 个 进程 就 会 尝 
试 发 送 它们 自己 的 最 佳 回路 给 进程 0， 除了 一 个 线程 以 外 的 其 他 所 有 线程 都 会 因为 调用 MPI_ 
Send 而 挂 起 。 第 二 ， 可 能 有 一 个 或 多 个 进程 没有 接收 到 最 新 的 最 佳 回 路 代价 ， 它 们 会 发 送 不 
是 最 佳 回 路 给 进程 0。 

我 们 可 以 用 下 面 的 方法 来 避免 上 面 的 问题 : 让 每 个 进程 存储 自己 的 局 部 最 佳 回路 ， 在 所 有 进 
程 完成 搜索 后 都 调用 MPI_A11reduce， 拥 有 全 局 最 佳 回 路 的 进程 也 可 以 把 它 发 送 给 进程 0。 下 
面 的 伪 代 码 提供 了 详细 的 描述 : 


struct { 
1int cost: 
int rank:; 
} loc-data, giobal.data; 


locdata.cost = Tour-cost(1o0c-best-tour); 
1oc-data.rank = my-rank; 
MPpI_Allreduce(&locdata, &global.data, 1, MPI.2INT, MPI_-MINLOC, 
Comm ) ; 
if (global_data.rank == 0) return; 
/* 0 already has the best tour */ 
if (my-rank == 0) 
Receive best tour from process global_data.rank:; 
else if (my-rank == global.data.rank) 
Send best tour to process 0; 


这 里 的 关键 是 调用 MPI_A11reduce 时 使 用 的 操作 。 如 果 只 使 用 MPI_MIN， 就 能 知道 全 局 最 佳 回 
路 的 代价 是 多 少 ,但 不 能 知道 是 哪个 线程 拥有 它 。 然 而 ，MPI 提供 了 一 个 预定 义 的 操作 符 : MPI_ 
MINLOC，, 它 作用 于 一 对 参数 值 。 第 一 个 参数 值 是 回路 的 代价 ， 第 二 个 参数 值 是 最 小 代价 的 地 址 ， 
即 拥 有 最 佳 回路 进程 的 进程 号 。 如 果 超 过 一 个 进程 拥有 最 小 代价 的 回路 ， 地 址 将 是 这 些 进程 的 进 
程 号 中 的 最 小 值 。 在 调用 MPI_A11reduce 时 ， 输 入 和 输出 缓冲 区 是 有 两 个 成 员 的 结构 。 因 为 代 
价 和 进程 号 都 是 整数 ， 所 以 成 员 都 用 int 来 表示 。MPI 提供 了 MPI_2 INT 来 表示 这 种 类 型 。 调 用 
MPI_Allreduce 返回 时 ， 有 下 面 两 种 选择 : 

。 如 果 进 程 0 已 经 有 了 最 佳 回 路 ， 我 们 就 简单 地 直接 返回 。 

。 和 否则， 拥有 最 佳 回 路 的 进程 发 送 最 佳 回 路 给 进程 0。 

未 接收 的 消息 

正如 我 们 之 前 讨论 的 那样 ， 某 些 消 息 很 可 能 在 并 行 化 树 搜索 的 过 程 中 被 漏 掉 而 没有 接收 。 一 
个 进程 可 能 在 某 些 进 程 发 现 最 佳 回 路 前 已 经 搜索 完了 自己 的 子 树 。 这 些 不 会 导致 程序 输出 错误 的 
结果 。 必 须 等 到 所 有 的 进程 都 调用 了 MPI_A11reduce， 找 到 最 佳 回 路 的 进程 对 MPI_A11re- 
duce 的 调用 才 会 返回 。 因 此 它 会 正确 地 返回 最 小 代价 的 回路 ， 而 进程 0 会 接收 这 个 回路 。 

然而 ， 未 接收 的 消息 会 对 调用 MPI_Buffer_detach 或 MPI_Finalize 造成 一 些 影响 。 如 
果 一 个 进程 正在 存储 在 缓冲 区 中 但 未 被 接收 的 消息 ， 该 进程 可 能 会 在 这 些 调 用 上 挂 起 。 所 以 在 学 
试 关 闭 MPI 前 ， 可 以 调用 MPI_Iprobe 尝试 接收 那些 未 被 接收 的 消息 。 这 些 代 码 类 似 于 在 程序 
6-9 中 用 于 测试 新 的 最 佳 回路 代价 的 代码 。 参 见 程序 6-9。 实 际 上 ， 唯 一 不 使 用 集合 通信 发 送 的 消 
息 是 发 送 给 进程 0 的 最 佳 回路 ， 以 及 对 最 佳 回路 代价 的 广播 。 如 果 某 些 进程 不 参与 操作 ，MPI 集 
合 通信 就 会 将 该 进程 挂 起 ， 所 以 只 需要 寻找 未 被 接收 的 最 佳 回 路 。 

在 动态 负载 均衡 的 代码 (后 续 会 讨论 到 ) 中 ,还 有 其 他 的 消息 需要 考虑 ， 包 括 一 些 较 大 的 消 
息 。 为 了 处 理 这 种 情况 ， 可 以 使 用 由 MPI_Iprobe 返回 的 参数 status 来 确定 消息 的 大 小 ， 并 在 
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必要 的 时 候 分 配 需要 增加 的 存储 资源 (参见 习题 6. 23 ) 。 


6. 2. 12 采用 MPI 和 动态 划分 来 实现 树 搜索 

我 们 可 以 通过 模拟 Pthreads 和 OpenMP 中 动态 划分 的 程序 来 实现 MPI 的 动态 树 搜索 。 在 
Pthreads 和 OpenMP 的 程序 中 ， 线 程 的 搜索 函数 会 在 每 一 轮 while 循环 中 都 调用 一 个 返回 值 为 布 
尔 型 的 函数 Terminated。 当 某 个 线程 完成 工作 后 ， 也 就 是 它 的 栈 为 空 时 ， 该 线程 就 会 进入 条 件 
等 待 (Pthreads) 或 者 忙 等 待 (OpenMP) ， 直 到 它 接收 到 新 的 任务 或 者 通知 它 已 经 没有 要 做 的 任 
务 了 。 在 第 一 种 情况 下 ， 它 会 继续 去 搜索 最 佳 回路 ， 在 第 二 种 情况 下 ， 它 会 退出 执行 。 栈 中 有 超 
过 两 个 记录 的 线程 会 分 配 一 半 的 任务 给 处 于 等 待 状态 的 线程 。 

这 些 钦 辑 可 以 在 分 布 式 内 存 环 境 中 得 到 模拟 。 当 一 个 进程 完成 任务 后 ， 它 进入 忙 等 待 ， 等 待 
接收 更 多 的 工作 或 者 接收 到 程序 终止 的 信号 。 类 似 地 ， 一 个 有 任务 可 做 的 进程 可 以 划分 它 的 栈 ， 
把 自己 的 工作 分 配给 一 个 空闲 进程 。 

关键 的 不 同 之 处 在 于 ， 这 里 没有 一 个 可 供 进程 等 待 任务 的 集中 式 存储 点 ， 所 以 进程 在 划分 栈 


的 时 候 不 能 简单 地 对 一 组 正在 等 待 的 进程 执行 出 队 操作 ， 或 者 简单 地 调用 函数 pthread_cond_ 


signal。 它 需要 “知道 ”哪个 进程 处 于 等 待 任务 的 状态 ， 才 能 发 送 任务 给 该 进程 。 因 此 ， 不 能 
简单 地 直接 进入 忙 等 待 状态 或 者 终止 ， 完 成 任务 的 进程 应 该 发 送 请 求 任务 的 消息 给 其 他 进程 。 如 
果 这 样 做 ， 当 进程 进入 Terminated 消 数 时 ， 它 会 检查 是 否 有 来 自 其 他 进程 的 请 求 任务 消息 。 如 
果 有 ， 并 且 该 进程 也 没有 可 做 的 工作 ， 就 会 返回 一 个 拒绝 的 消息 。 因 此 ， 在 分 布 式 内 存 系 统 中 ， 
Terminated 函数 的 伪 代 码 可 以 如 程序 6-10 所 示 。 

Terminated 函数 在 开始 时 会 检查 进程 栈 中 所 拥有 的 回路 数 (第 1 行 ); 如 果 它 有 至 少 两 条 
“值得 发 送 ”的 回路 ， 它 就 调用 Ful1fi11_request (第 2 行 )。Fulfi1]_request 检查 进程 是 


和 否 已 经 接收 到 请 求 任务 的 消息 。 如 果 没 有 接收 到 请 求 ， 就 直接 返回 。 在 这 种 情况 下 ， 当 从 Ful - 


fi11_regquest 返回 后 ， 它 从 Terminated 返回 并 继续 搜索 。 

如 果 调 用 进程 没有 至 少 两 条 值得 发 送 的 回路 ，Terminated 就 调用 Send_rejects (第 5 
行 )， 检查 是 否 有 请 求 任务 的 消息 ， 并 发 送 一 个 “没有 工作 ” (no work) 的 回复 给 每 个 请 求 任 
务 的 进程 。 此 后 ，Terminated 检查 调用 进程 是 否 有 工作 可 做 ， 如 果 有 ( 栈 非 空 ) ， 它 就 会 返 
回 并 继续 搜索 。 

当 调 用 进程 没有 工作 可 做 的 时 候 ， 事 情 会 变 得 很 有 趣 (第 9 行 )。 如 果 在 通信 子 里 只 有 一 个 
进程 (comm_sz=1)， 那 么 进程 从 Terminated 返回 并 退出 执行 。 如 果 有 超过 一 个 进程 存在 ， 
那么 进程 宣布 自己 没有 任务 可 做 了 (第 11 行 )。 这 是 “分 布 式 终止 检测 算法 ”的 部 分 实现 ， 我 们 
会 在 后 面 继续 讨论 。 目 前 ， 使 用 共享 内 存 的 终止 检测 算法 是 不 可 用 的 ， 因 为 它 不 能 保证 存储 无 任 
务 可 做 的 进程 数目 的 变量 是 最 新 值 。 


程序 6-10 ”使 用 MPI 实现 动态 划分 的 TSP 问题 中 的 Terminated 函数 





1 if (My-avaii-tour-count (my-stack) >= 2) 1{ 

2 Fulfill_request(my.stack); 

3 return false; /*# Stil] more work */ 

4 } else { /x At most 1 available tour */ 

5 Send_rejects(); /* Tel] everyone who's requested */ 
6 /* work that I have none */ 
7 1f (1Empty-stack(my-stack)) { 
8 return false; /* Sti]}} more work */ 


9 } else { /* Empty stack */ 
10 if (Comm-sz == 1) return true; 
11 Out_of workC): 


12 work-request.sent = false; 
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13 while (1) { 

14 Clear.msgs(): /x Msgs unrelated to work, termination */ 
15 1f (No.work_leftt)) { 

16 return true; /x* No work left. Quit */ 

17 } else if (!work-request-sent) { 

18 Send_-work_request(}); /* Request work from someone */ 
19 work-request.sent = true; 

20 } else { 

21 Check.for.work(&work.request_sent, &work-avail ); 

22 1f (work-avail) { 

23 Receive work(my.stack); 

24 return false: 

25 } 

26 } 

27 } Ar while */ 

28 } /* Empty stack */ 


29 /kr At most 1 available tour */ 





在 进入 无 限 循环 while (第 13 行 ) 前 , 设置 变量 work_request_sent 为 false (第 12 
行 ) 。 正 如 名 字 所 示 ， 这 个 变量 表达 是 否 给 其 他 进程 发 送 请 求 任 务 的 消息 ; 如果 有 ， 在 发 送 下 一 
条 请 求 给 其 他 进程 前 ， 持 续 等 待 来 自 它 之 前 发 送 消 息 的 目的 进程 所 发 来 的 任务 ， 或 者 等 待 一 条 该 
进程 响应 的 “没有 可 分 配 任 务 ” 的 消息 。 

While(1 ) 循 环 是 OpenMP 中 忙 等 待 循环 的 分 布 式 内 存 版 本 。 进 程 持续 等 待 直 到 接收 到 分 配 的 
任务 或 者 搜索 工作 已 经 完成 的 消息 。 

在 进入 while(1) 循 环 后 ， 可 以 在 第 14 行 处 理 任 何 未 被 接收 的 消息 。 可 能 会 接收 到 对 最 佳 回 
路 代价 的 更 新 ， 也 可 能 接收 到 请 求 任 务 的 消息 。 对 于 那些 请 求 任 务 的 进程 ， 返 回 给 其 “没有 可 分 
配 任务 ”的 消息 是 很 有 必要 的 ， 这 样 才能 保证 在 没有 任务 的 情况 下 它们 不 会 一 直 处 于 等 待 状态 。 
这 对 于 最 佳 回 路 代价 的 更 新 也 是 个 不 错 的 主意 ， 因 为 这 样 做 可 以 释放 发 送 进程 消息 缓冲 区 的 
空间 。 

在 处 理 完 末 接收 的 消息 后 ， 和 迭代 操 作 会 按照 以 下 步骤 继续 进行 ， 

。 搜索 已 经 完成 ， 退 出 执行 第 15 ~ 16 行 。 

。 没有 发 送 任何 任务 请 求 ， 可 以 选择 一 个 进程 并 发 送 请 求 任务 的 消息 (第 17 ~19 行 )。 下 

面 将 进一步 讨论 发 送 请 求 给 哪个 进程 。 

e 有 一 个 未 完成 任务 请 求 (第 21 ~25 行 )。 所 以 我 们 测试 该 请 求 是 否 完成 或 者 拒绝 。 如 
果 已 经 完成 ， 那 么 就 接收 新 的 工作 并 返回 继续 搜索 ;， 如 果 接 收 到 拒绝 的 消息 ， 就 设置 
work_request_sent 为 false 并 继续 执行 循环 操作 。 如 果 请 求 既 没 有 完成 也 没有 拒绝 ， 
那么 就 继续 在 while(1 ) 循 环 里 执行 。 

下 面 给 出 一 些 函 数 的 详细 信息 : 

My_avail_ tour_count 

函数 My_avail1_tour_count 返回 进程 栈 的 大 小 。 它 还 可 以 使 用 “截止 长 度 ”。 当 一 个 部 分 
回路 已 经 访问 了 绝 大 多 数 城市 时 ， 这 棵 子 树 没完 成 的 任务 就 很 少 了 。 因 为 发 送 一 个 部 分 回路 操作 
的 代价 是 很 大 的 ， 可 以 尝试 只 发 送 边 数 少 于 截止 部 分 的 回路 。 在 习题 6. 24 中 ， 我 们 考察 截止 对 
程序 的 全 局 运行 时 间 的 影响 。 

Fulfill_request 

如 果 一 个 进程 有 足够 的 任务 可 做 ， 即 可 以 有 效 地 分 离 它 的 栈 ， 那 么 就 调用 函数 Fu1fi11_ 
request (第 2 行 )。Fulfill_request 使 用 MPI_Iprobe 测试 来 自 其 他 进程 的 任务 请 求 。 如 
果 存 在 这 样 的 请 求 ， 就 接收 它 ， 并 分 离 自 己 的 栈 ， 分 配 自 己 的 工作 给 发 送 请 求 任 务 销 息 的 进程 ; 
如 果 没 有 这 样 的 请 求 ， 进 程 就 继续 往 下 执行 。 
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分 离 栈 

图 数 Sp1it_stack 是 由 Fulfi11_request 调用 的 。 它 所 用 的 算法 与 Pthreads 和 OpenMP 
是 一 样 的 ， 即 收集 少 于 sp1it_cutoff 个 城市 的 部 分 回路 ， 并 发 送 给 请 求 任 务 的 进程 。 然 而 ， 
在 共享 内 存 程序 中 ， 简 单 地 从 旧 栈 复制 回路 (指针 ) 到 新 栈 。 不 幸 的 是 ， 这 涉及 新 栈 的 指针 ， 这 
样 的 数据 结构 不 能 简单 地 发 送 给 其 他 进程 〈 见 习题 6. 25 ) 。 因 此 ，MPI 版 本 的 Sp1it_stack 把 
新 栈 的 内 容 打包 到 连续 的 存储 空间 ， 然 后 把 地 址 连续 的 内 存 块 发 送出 去 ， 并 由 接收 者 解 包 到 自己 
的 新 栈 里 。 

MPI 提供 了 函数 MPI_Pack， 用 于 打包 数据 到 地 址 连续 的 内 存 缓冲 区 。 它 还 提供 了 函数 MPI_ 


Unpack， 用 于 解 包 数 据 。 在 习题 6. 20 中 ,我 们 简单 地 介绍 了 它们 。 回 顾 一 下 它们 的 句法 : 
int MPI-Pack( 
void* data-to-be-packed A/x in */， 
int tobe.packed_count /* In 水 /， 
MPI_Datatype datatype /* in */， 
void* contigbuf /* out */， 
int contig_buf_size /kk in */， 
int* position_p . /* in/out */, 
MPI_Comm Comm /x in */); 


int MPI_Unpack 


VOidx contig-buf /* in 本 1/ ， 
int contig.buf.size /*# in */， 
“ Tnt* position-p /# in/out */, 
void* Unpacked-data /*# Out 本 1/ ， 
int Unpack-count /# in */， 
MPI_Datatype datatype /# in 上 /， 
MPI_Comm comm /* in */); 


MPI_Pack 把 data_to_be_packed 中 的 数据 打包 到 contig_buf 里 。 参 数 * position_p 表 
示 在 contig_buf 中 所 处 的 位 置 。 当 该 函数 被 调用 时 ， 它 应 该 指向 data_to_be_packed 被 加 
人 前 contig_buf 可 用 的 第 一 个 位 置 。 该 函数 返回 后 ， 应 该 指向 data_to_be_packed 被 加 入 
后 contig_buf 第 一 个 可 用 的 位 置 。 

MPI_Upack 的 操作 与 MPI_Pack 正好 相反 。 它 把 contig_buf 里 的 数据 解 包 到 unpacked_ 
data。 调 用 该 函数 时 ，* position_p 应 该 是 未 解 包 前 config_buf 的 第 一 个 可 用 位 置 。 函 数 
返回 时 ，* position_p 应 该 是 数据 解 包 后 contig_buf 的 下 一 个 可 用 的 位 置 。 

例如 ， 假 设 一 段 程序 包含 下 面 的 定义 


typedef struct { 


int* cities; /x Cities in partial tour */ 
Tnt count ; /* Number of cities in partia!l tour */ 
1nt cost; /* Cost of partia] tour */ 


} tour.struct; 
typedef tour_struct* tour_t; 


然后 ， 我 们 用 下 面 的 代码 发 送 类 型 为 tour_t 的 变量 : 


void Send-tour(tour-t tour, int dest) { 
int position = 0; 


MPI_PpPack(tour~>cities, n+l, MPI_INT, contig.buf , LARGE, 
&position, comm); 

MPI_Pack(&tour~>count, 1, MPI_INT, contig.buf , LARGE. 
&position, comm); 

MPI_Pack{&tour—>cost, 1, MPI_INT, contig_buf, LARGE, 
&position, comm); 

MPI-Send(contigbuf, position, MPI_PACKED, dest, 0, comm); 

上 /* Send_tour */ 


类 似 地 ,我 们 可 以 用 下 面 的 代码 接收 类 型 为 tour_t 的 变量 : B30 
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void Receive-tour(tour-t tour, int src) { 
int position = 0; 


MPI_Recv(contig-buf, LARGE, MPI.PACKED, src, 0, comm, 
MPI.STATUS_IGNORE); 
MPpIUnpack(contig_buf, LARGE, 8&position, tour—>cities, n+l, 
MPI_INT, comm); 
MPIUnpack(contig_buf, LARGE, &position, &tour~>count, 1, 
MPI_LINT, comm); 
MPI.Unpack(contig_buf, LARGE, &position, &tour—>cost, 1, 
MPILINT, comm); 
} /A* Receive_tour */ 
在 MPI 程序 中 ， 用 于 发 送 和 接收 打包 缓冲 区 的 数据 类 型 是 MPI_PACKED。 
Send_rejects 
函数 Send_rejects (第 5 行 ) 类 似 于 寻找 新 的 最 佳 回路 的 函数 。 它 使 用 MPI_Iprobe 搜 
索 请 求 任务 的 消息 。 这 样 的 消息 可 以 用 一 个 特别 的 标志 来 识别 ， 例 如 ，WORK_REQ_TAG。 找 到 这 
样 的 消息 后 就 接收 该 消息 ， 然 后 把 “没有 适合 分 配 的 工作 ”的 信息 问 复 给 请 求 任务 的 进程 。 此 
时 ， 标 志 能 告知 接收 者 消息 的 含义 即 可 ， 请 求 任 务 的 消息 和 表明 无 合适 工作 的 消息 都 可 以 仅 包 含 
0 个 元 素 。 即 使 这 样 的 消息 没有 什么 实际 的 内 容 ， 信 封 也 需要 占据 空间 ， 这 些 消息 也 需要 被 接收 。 
分 布 式 终止 检测 
函数 0ut_of_work 和 No_work_left (第 11 行 和 第 15 行 ) 实现 了 终止 检测 算法 。 正 如 前 
面 提 及 的 ， 在 共享 内 存 程序 中 使 用 的 终止 检测 算法 在 这 里 会 出 现 问题 。 为 了 说 明 这 点 ， 假 设 每 个 
进程 存储 了 一 个 变量 00w， 用 于 表示 没有 工作 可 做 的 进程 数 。 在 程序 开始 时 ，oow 被 赋值 为 0。 
每 次 某 个 进程 完成 了 任务 ， 就 会 发 送 一 条 消息 告知 其 他 所 有 进程 它 的 状态 ， 使 得 所 有 的 进程 都 会 
对 它 自 己 的 oow 副本 进行 加 1 操作 。 类 似 地 ， 当 一 个 进程 从 另 一 个 进程 那里 接收 到 工作 时 ， 它 就 
需要 给 每 个 进程 发 送 消息 来 告知 此 事 ， 然 后 每 个 进程 都 会 对 各 自 的 oow 副本 执行 减 1 操作 。 如 果 
假设 有 3 个 进程 ， 进 程 2 仍然 有 任务 要 做 ， 但 是 进程 0 和 进程 1 已 经 完成 了 各 自 的 任务 。 考 虑 如 
表 6-10 所 示 的 事件 发 生 顺 序 。 


表 6-10 ”导致 错误 的 终止 事件 





时 间 进程 0 进程 1 进程 2 
天 工作 ， 通知 进程 1 和 进程 2， 天 工作 ， 通知 进程 0 和 进程 2， 工作 ，oow -0 

1 发 送 请 求 给 进程 1，0ow =1 发 送 请 求 给 进程 2，oow=1 接收 来 自 进程 1 的 通知 ，00w =1 
2 oow =1 接收 来 自 进程 0 的 通知 ，oow =2 ”接收 来 自 进程 1 的 请 求 ，oow =1 
3 00w =1 O0W=2 发 送 工作 给 进程 1，oow =0 

4 oow=1 接收 来 自 进程 2 的 工作 ，oow =1 ”接收 来 自 进程 0 的 通知 ，0ow =1 
5 0ow =1 通知 进程 0，oow =1 工作 ，oow =1 

6 0ow =1 接收 来 自 进程 0 的 请 求 ，oow =1 ”无 工作 , 通知 进程 0 和 进程 1，oow =2 
7 接收 来 自 进程 2 的 通知 ，oow =2 ”发 送 工 作 给 进程 0，oow =0 发 送 请 求 给 进程 1，oow =2 

8 接收 来 自 进程 ! 的 通知 ，oow =3 ”接收 来 自 进程 2 的 通知 ，oow =1 oow=2 

9 退出 接收 来 自 进程 2 的 请 求 ，oow =1 oow=2 


这 里 发 生 的 错误 是 : 进程 1 发 送 给 进程 0 的 工作 丢失 了 。 原 因 是 进程 0 在 收 到 进程 1 已 接 

收 到 工作 的 通知 前 ， 先 收 到 进程 2 没有 任务 的 通知 。 这 种 情况 看 似 不 会 发 生 ， 但 是 却 存在 发 生 

的 可 能 。 例 如 ， 进 程 1 被 操作 系统 中 断 ， 以 至 于 直到 进程 2 发 送 的 消息 传送 后 ， 进 程 1 的 才能 
传送 。 
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尽管 MPI 保证 了 两 条 从 进程 A 发 送 到 进程 B 的 消息 会 按照 它们 发 送 的 顺序 被 接收 ， 但 它 却 不 
能 保证 不 同 进程 发 送 消 息 的 接收 顺序 。 考 虑 到 不 同 的 进程 会 由 于 各 种 原因 有 不 同 的 执行 速度 ， 出 
现 问题 是 很 容易 理解 的 。 

分 布 式 终止 检测 是 一 个 具有 挑战 性 的 问题 ， 目 前 ， 在 开发 保证 正确 检测 终止 状态 的 算法 上 已 
经 有 人 做 了 很 多 工作 。 从 概念 上 讲 ， 这 些 算 法 中 最 简单 的 一 种 是 追踪 一 个 守恒 量 ， 这 个 守恒 量 可 
以 精确 测量 。 我 们 称 这 个 守恒 量 为 能 量 (energy ) ， 因 为 能 量 是 守恒 的 。 在 程序 的 起 始 处 ， 每 个 进 
程 有 1 个 单位 的 能 量 。 当 一 个 进程 完成 了 任务 ， 就 把 自己 的 能 量 发 送 给 进程 0。 当 一 个 进程 完成 
了 一 次 请 求 任务 的 操作 ， 就 把 自己 的 能 量 一 分 为 二 ， 自 己 留 一 份 ， 另 外 一 份 发 送 给 接收 任务 的 进 
程 。 因 为 能 量 是 守恒 的 ， 起 始 的 份额 是 comm_sz 个 单位 ， 所 以 程序 会 在 进程 0 接收 到 comm_sz 
个 单位 的 能 量 后 终止 执行 。 

函数 0ut_of_work 在 被 除了 进程 0 以 外 的 进程 执行 时 会 发 送 能 量 给 进程 0。 进 程 0 可 以 用 变 
量 received_energy 记录 能 量 数 。 函 数 No_work_left 也 依赖 于 是 由 进程 0 调用 还 是 由 其 他 
进程 调用 。 如 果 进 程 0 调用 ， 就 接收 由 0ut_of_work 发 送 的 消息 ， 并 调整 变量 received_en- 
ergy。 如 果 received_energy 等 于 Comm_sz， 进 程 0 就 发 送 一 个 终止 消息 (具有 特殊 标志 
给 每 个 进程 。 另 一 方面 ， 非 0 进程 会 测试 是 否 有 一 个 标志 为 终止 的 消息 。 

这 里 比较 重要 的 一 点 是 ， 要 确保 没有 能 量 流失 ; 如 果 采 用 float 或 者 double 类 型 来 表示 
能 量 ， 那 么 一 定 会 出 现 问题 ， 因 为 在 除法 操作 时 会 引起 下 溢 。 因 为 能 量 的 数量 可 以 用 普通 分 数 
来 表达 ， 所 以 可 以 精确 地 为 每 个 进程 用 一 对 定点 数 来 表达 能 量 数 。 分 母 总 是 2 的 害 ， 所 以 采用 
以 2 为 底 的 算法 。 但 对 一 个 大 问题 来 说 ， 分 子 仍然 可 能 会 溢出 。 然 而 ， 如 果 这 真 成 了 问题 ， 还 
可 以 使 用 提供 了 任意 精度 有 理 数 的 类 库 (例如 GMP [21])。 另 外 一 种 解决 方法 在 习题 6. 26 中 
进行 讨论 。 

发 送 请 求 任务 的 消息 

一 旦 决定 了 给 哪个 进程 发 送 请 求 ， 就 可 以 发 送 一 个 长 度 为 0， 标志 为 “请 求 工 作 ” 的 消息 。 
然而 ， 在 选 定 目标 进程 上 有 以 下 可 能 。 

1) 用 时 间 片 轮转 的 方式 依次 通过 每 个 进程 。 以 (my_rank +1)% comm_sz 为 起 点 ， 每 来 一 
个 新 的 请 求 就 把 目标 进程 号 加 1。 这 样 做 可 能 存在 的 问题 是 ， 两 个 进程 会 进入 “同步 ”， 并 重复 
给 相同 的 目的 地 发 送 请 求 任务 的 消息 。 

2) 在 进程 0 维护 一 个 全 局 目标 进程 的 信息 。 当 某 个 进程 完成 任务 后 ， 它 首先 从 进程 0 请 求 
当前 全 局 目标 进程 的 值 。 进 程 0 在 每 个 请 求 后 对 该 值 执行 加 1 操作 。 这 样 就 避免 了 多 个 进程 给 同 
一 目的 地 发 送 消息 ,但 很 明显 进程 0 会 成 为 瓶颈 。 

3) 每 个 进程 使 用 一 个 随机 数 生 成 器 来 产生 目的 地 。 当 然 还 是 有 可 能 发 生 多 个 进程 同时 向 一 
个 进程 发 送 请 求 ， 不 过 随机 生成 目标 进程 号 能 降低 多 个 进程 重复 请 求 同 一 个 进程 的 可 能 。 

我 们 在 习题 6. 29 里 分 析 这 几 种 方案 ， 也 可 以 参考 [22] 对 这 些 选 项 的 分 析 。 

检查 和 接收 任务 

一 旦 有 进程 发 送 了 请 求 任务 的 消息 ， 该 进程 就 需要 重复 地 检查 是 否 有 目标 进程 的 回复 。 实 际 
上 ,微妙 之 处 在 于 ， 发 送 进程 需要 检查 接收 进程 返回 消息 的 标志 到 底 是 “有 任务 可 以 分 配 ” 还 是 
“无 任务 可 以 分 配 ” 。 如 果 发 送 进程 只 是 简单 地 检查 是 否 有 来 自 接收 进程 的 消息 ， 那 就 有 可 能 被 
“误导 ”， 导 致 永远 都 接收 不 到 发 送 过 来 的 任务 。 例 如 ， 一 个 来 自 目标 进程 请 求 任 务 的 消息 ， 有 可 
能 会 掩盖 有 任务 消息 的 存在 。 

因此 函数 Check_for._work 首先 要 探测 是 否 有 表示 “有 任务 可 分 配 ” 的 消息 ， 如 果 没 有 这 样 
的 消息 ， 就 需要 探测 是 否 有 表示 “没有 任务 可 分 配 ” 的 消息 。 如 果 有 任务 可 分 配 ， 函 数 Receive_ 
work 可 以 接收 含有 任务 的 消息 ， 并 解 包 相 应 的 内 容 到 进程 的 栈 中 。 同 时 要 注意 ， 还 需要 解 包 来 自 
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目标 进程 的 能 量 值 。 

MPI 程序 的 性 能 

表 6-11 显示 了 数量 为 15 个 城市 的 两 个 TSP 问题 的 MPI 程序 的 性 能 ， 这 两 个 问题 与 我 们 之 前 
用 Pthreads 和 OpenMP 测试 过 的 问题 相同 。 运 行 时 间 以 秒 为 单位 ， 括 号 中 的 数字 代表 动态 实现 时 
分 离 栈 的 次 数 。 取 得 这 些 结果 的 系统 不 同 于 之 前 Pthreads 方式 下 所 用 的 系统 。 当 然 我 们 也 把 这 个 
系统 下 用 Ptheads 实现 该 问题 所 获得 的 性 能 展示 出 来 ， 所 以 两 组 数据 可 以 用 来 对 比 。 这 个 系统 的 
结 点 只 有 4 个 核 ， 所 以 Pthreads 的 结果 不 包括 8 核 和 16 核 的 情况 。MPI 实现 时 ， 参 数 cutoff 设置 
为 12。 


表 6-11 树 搜索 的 MPI 和 Pthreads 实现 的 性 能 (单位 : 秒 ) 











第 一 个 问题 第 二 个 问题 
和 静态 动态 静态 动态 
Pth MPI pth MPI Pth MPI Pth MPI 
1 35.8 40.9 41.9 (0) 56.5 (0) 27.4 31.5 32.3 (0) 43.8 (0) 
2 29.9 34.9 34.3 (9) 55.6 (5) 27.4 31.5 22.0 (8) 37.4 (9) 
4 27.2 31.7 30.2 (55) 52.6 (85) 27.4 31.5 10.7 (44) 21.8 (76) 
8 35.7 45.5 (165) 35.7 16.5 (161) 
16 20.1 10.5 (441) 17.8 0.1 (173) 


这 个 系统 的 每 一 个 结 点 是 一 个 小 型 的 共享 内 存 系 统 ， 因 此 采用 共享 变量 形式 的 通信 比分 布 式 
内 存 通信 快 。 所 以 在 各 种 情况 下 ，Ptbreads 实现 的 性 能 好 于 MPI 实现 ， 是 可 以 理解 的 。 

在 MPI 实现 里 ， 分 离 栈 操作 的 代价 比较 高 ; 除了 通信 开销 以 外 ， 打 包 和 解 包 也 很 耗 时 。 所 以 
对 于 采用 较 少 进程 的 小 问题 ,静态 MPI 并 行 化 实现 要 优 于 动态 并 行 化 。 然 而 ，8 进程 和 16 进程 的 
结果 表明 ， 如 果 问 题 大 到 足够 能 保证 使 用 多 个 进程 ， 那 么 动态 MPI 程序 的 可 扩展 性 更 高 ， 性 能 也 
更 出 色 。 例 子 中 对 于 城市 数 为 7、 进程 数 为 16 的 TSP 问题 印证 了 这 一 点 : 动态 MPI 实现 的 运行 
时 间 是 296 秒 ， 静态 实现 的 运行 时 间 为 601 秒 。 

对 于 第 二 个 问题 ， 在 16 个 进程 的 情况 下 ，0. 1 秒 的 执行 时 间 也 不 能 真正 代表 超 线性 的 加 速 
比 。 更 准确 地 说 ， 是 初始 化 分 配 任务 让 某 个 进程 发 现 最 佳 回路 的 速度 比 进程 较 少 时 要 快 了 许多 ， 
动态 分 割 帮助 进程 之 间 维 持 更 均衡 的 负载 。 


6.3 忠告 


在 开发 针对 n 体 问题 和 TSP 的 解决 方案 时 ， 选 择 串 行 算法 是 因为 它 更 容易 理解 ， 对 它 的 并 行 
化 更 直接 。 但 无 论 如 何 我 们 不 会 因为 串 行 算法 是 最 快 的 ， 或 者 它 可 以 解决 最 大 的 问题 而 选择 串 行 
算法 。 因 此 ， 我 们 不 应 该 假设 串 行 或 并 行 解 决 方案 是 最 好 的 。 目 前 最 好 的 算法 ，z 体 问题 可 以 参 
见 [12] ， 并 行 化 树 搜索 可 以 参见 [22]。 


6. 4 选择 哪个 API 


如 何 判定 MPI、Pthreads 、OpenMP 中 哪 一 个 是 针对 某 个 应 用 程序 最 佳 的 API 呢 ? 一 般 来 说 ， 
需要 考虑 许多 因素 ， 结 果 也 不 是 特别 明显 。 然 而 ， 下 面 一 些 要 点 是 我 们 需要 注意 的 : 

第 一 步 ， 决定 采用 分 布 式 内 存 还 是 共享 内 存 。 为 了 做 出 决定 ， 先 考虑 应 用 程序 所 需 内 存 的 数 
量 。 一 般 情 况 下 ， 分 布 式 内 存 系统 比 共享 内 存 系统 提供 更 多 的 内 存 空间 ， 所 以 如 果 所 需 内 存 较 
大 ， 可 以 考虑 使 用 MPI 来 编写 应 用 程序 。 

即使 共享 内 存 系统 能 满足 问题 的 内 存 需 求 ， 依 然 可 以 考虑 采用 MPI。 因 为 分 布 式 内 存 系统 有 
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比 共 享 内 存 系统 多 得 多 的 高 速 缓存 ， 可 以 想象 ， 在 共享 内 存 系统 中 需要 执行 大 量 主 存 存 取 操 作 的 
问题 ， 会 转化 成 在 分 布 式 内 存 系 统 中 执行 大 量 存 取 高 速 缓存 的 操作 ， 结 果 会 得 到 更 优 的 全 局 
性 能 。 

然而 ， 即 使 通过 利用 分 布 式 内 存 系统 中 较 大 的 总 缓存 量 得 到 很 大 的 性 能 提升 ， 如 果 已 经 有 了 
一 个 大 而 复杂 的 串 行 程序 ， 开 发 它 对 应 的 共享 内 存 程序 也 是 有 意义 的 。 通 常情 况 下 ， 在 共享 内 存 B39 
系统 中 可 以 比 在 分 布 式 内 存 系统 中 重用 更 多 的 串 行 代码 。 串 行 数据 结构 可 以 更 容易 地 部 署 在 共享 
内 存 系统 中 。 在 这 种 情况 下 ， 开 发 基于 共享 内 存 系统 的 程序 会 轻松 些 。 这 对 于 OpenMP 程序 来 说 ， 
确实 如 此 ， 因 为 很 多 串 行 代码 可 以 通过 OpenMP 指令 很 轻松 地 并 行 化 。 

另 一 个 需要 考虑 的 是 并 行 化 程序 的 通信 需求 。 如 果 进 程 /线程 之 间 通 信 较 少 ，MPI 程序 会 很 
容易 开发 ， 并 且 具 备 良 好 的 扩展 性 。 对 于 另 一 个 极端 情况 ， 进 程 / 线 程 需要 很 好 地 协调 时 ， 分 布 
式 内 存 程序 会 在 扩展 到 一 定 程 度 时 出 现 问题 ， 此 时 选择 共享 内 存 程序 会 好 一 些 。 

如 果 你 确定 共享 内 存 更 好 ， 那 就 需要 考虑 并 行 化 程序 的 细节 。 正 如 我 们 之 前 所 关注 的 ， 如 果 
是 一 个 大 而 复杂 的 串 行 程序 ， 就 需要 先 考 虑 是 否 适 合 采用 OpenMP。 例 如 ， 如 果 部 分 可 以 用 par- 
al1e1 指令 来 并 行 化 ，OpenMP 会 比 Pthreads 更 易于 使 用 。 另 一 方面 ， 如 果 程 序 涉及 线程 之 间 复 
杂 的 同步 〈 例 如 读 写 锁 、 线 程 等 待 被 其 他 线程 唤醒 ) ， 那 么 Pthreads 会 更 容易 使 用 些 。 


6.5 人 小结 


在 本 章 中 ， 我 们 观察 了 针对 两 个 不 同 问题 的 串 行 和 并 行 解决 方案 : n 体 问题 和 TSP 树 搜索 方 
案 。 对 每 一 个 例子 ， 我 们 一 开始 都 是 研究 问题 并 提出 该 问题 的 串 行 解决 方案 。 然 后 采用 Foster 方 
法 设计 一 个 并 行 解决 方案 。 根 据 Foster 方法 ， 我 们 实现 了 分 别 采 用 Pthreads 、OpenMP 和 MPI 的 解 
决 方案 。 在 开发 针对 n 体 问题 的 简化 版 本 的 MPI 解决 方案 时 ， 我 们 发 现 “显而易见 ”的 解法 在 实 
现 上 很 难 ， 并 且 需 要 大 量 的 通信 。 因 此 我 们 转 而 采用 “环形 传递 ”算法 ， 该 算法 被 证 明 更 容易 实 
现 ， 可 扩展 性 更 好 。 

对 于 并 行 化 树 搜索 的 动态 分 割 解法 ， 三 种 API 分 别 采用 了 不 同 的 方法 。 在 Pthreads 实现 里 ， 
使 用 一 个 条 件 变 量 来 控制 线程 之 间 新 任务 的 通信 ， 以 及 线程 的 终止 。OpenMP 没有 提供 类 似 于 


.Pthreads 中 条 件 变 量 的 对 象 ， 所 以 使 用 了 忙 等 待机 制 。 在 MPI 的 实现 里 ， 因 为 所 有 的 数据 都 是 局 


部 的 ， 所 以 需要 使 用 更 复杂 的 机 制 重新 分 配 任务 。 为 了 正确 地 重新 分 配 任 务 ， 一 个 无 任务 可 做 的 
进程 会 进入 忙 等 竺 循环 ， 在 该 循环 中 它 会 发 送 请 求 任务 的 消息 ， 并 等 待 响应 其 请 求 任务 的 消息 ， 
或 者 进程 终止 的 消息 。 B39 

我 们 看 到 ， 在 分 布 式 内 存 环 境 里 ， 进 程 之 间 互 相 发 送 任务 ， 要 决定 何 时 停止 执行 不 是 一 个 简 
单 的 问题 。 我 们 采用 了 一 个 比较 直接 的 解决 方案 处 理 分 布 式 终止 检测 问题 ， 即 在 程序 执行 的 过 程 
中 使 用 固定 数量 的 “能 量 ” 。 在 进程 无 任务 可 做 时 ， 它 们 会 发 送 自己 的 能 量 给 进程 0， 当 进程 发 
送 任务 给 其 他 进程 的 同时 ， 它 们 会 发 送 当前 一 半 的 能 量 给 接收 者 。 因 此 ， 当 进程 0 发 现 它 拥有 全 
部 能 量 时 ， 就 意味 着 没有 任务 可 做 了 ， 也 就 可 以 发 送 终止 消息 了 。 

接 下 来 ， 我 们 简单 分 析 了 如 何 选择 API。 第 一 个 要 考虑 的 问题 是 使 用 共享 内 存 还 是 分 布 式 内 
存 。 为 了 做 出 决定 ， 需 要 考察 应 用 程序 所 需 内 存 的 大 小 ， 以 及 进程 /线程 之 间 的 通信 量 。 如 果 所 
需 内 存 很 大 ， 或 者 分 布 式 内 存 版 本 可 以 利用 高 速 缓存 ， 那 么 分 布 式 内存 程 序 可 能 会 运行 得 更 快 。 
相反 地 ， 如 果 有 较 多 的 通信 ， 共 享 内 存 程序 会 运行 得 更 快 些 。 

对 于 如 何 选择 OpenMP 和 Pthreads， 如 果 已 经 有 串 行程 序 ， 并 且 可 以 通过 OpenMP 的 指令 并 行 
化 ,那么 OpenMP 会 是 一 个 较 好 的 选择 。 然 而 ， 如 果 需 要 线程 间 有 复杂 的 同步 (例如 ， 读 写 锁 、 
线程 信号 量 ) ， 那 么 Pthreads 会 更 易于 使 用 。 在 开发 这 些 程序 的 过 程 中 ,我们 也 学 到 了 更 多 关于 
Pthreads 、OpenMP 和 MPI 的 知识 。 
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6.5.1 Pthreads 和 OpenMP 

在 树 搜索 问题 中 ， 我 们 需要 在 更 新 最 佳 回路 之 前 ， 检 查 当 前 的 最 佳 回路 。 在 并 行 化 树 搜索 的 
Pthreads 和 OpenMp 实现 里 ， 更 新 最 佳 回路 会 导致 竞争 冲突 。“ 检 查 锁 的 条 件 ” 和 “更 新 锁 的 条 
件 ” 的 组 合 会 导致 一 个 问题 : 上 锁 的 条 件 〈 例 如 ， 最 佳 回路 的 代价 ) 可 能 会 在 第 一 次 检查 锁 条 件 
的 时 间 和 获得 锁 的 时 间 之 间 改 变 。 因 此 ， 线 程 在 取得 锁 之 后 依然 要 再 检查 上 锁 的 条 件 ， 所 以 更 新 
最 佳 回 路 的 伪 代 码 应 该 类 似 下 面 : 


if (new-tour-cost《 best-tour-cost) { 
Acquire iock protecting best tour: 
1f (new-tour-cost «< best-tour-cost) 
Update best tour; 
Relinquish lock; 
} 


记 住 在 Pthreads 里 有 一 个 非 阻 塞 版 本 的 pthreads_mutex_1ock， 称 为 pthread_mutex_ 
try1ock。 这 个 函数 测试 互 斥 量 是 否 可 用 。 如 果 可 用 ， 就 取 到 锁 ， 返 回 0 值 ; 如 果 不 可 用 ， 它 不 
B37 会 一 直 等 待 其 变 成 可 用 状态 ， 它 会 立即 返回 非 0 值 。 
OpenMP 中 ， 类 似 于 pthread_mutex_trylock 的 是 omp_test_1ock。 然 而 ， 它 的 返回 值 
与 pthread_mutex_trylock 正好 相反 。 
当 一 个 单独 的 线程 需要 执行 一 个 结构 化 代码 时 ，OpenMP 提供 了 一 些 解决 方法 : 


if (my-rank == special_rank) { 
Execute action; 
} 


采用 single 指令 : 


# pragma omp single 
Execute action; 


Next action; 


系统 会 选择 一 个 单独 的 线程 去 执行 该 动作 。 其 他 线程 会 在 进入 Next action 前 ,一 直 等 待 在 隐 
含 的 路 障 处 。 采 用 master 指令 : 


# pragma omp master 
Execute action; 


Next action; 


主线 程 (线程 0) 会 执行 该 动作 。 然 而 ,与 single 指令 不 同 ， 在 块 Execute action 后 没有 隐 
含 的 路 障 ， 组 内 其 他 线程 会 立即 执行 Next action。 当 然 ， 如 果 在 继续 执行 前 需要 一 个 路 障 ， 
可 以 在 完成 结构 化 块 Execute action 后 增加 一 个 路 障 。 在 习题 6. 6 里 ，OpenMP 提供 了 一 个 
nowait 的 子 句 ， 可 以 用 于 修改 single 指令 : 


# pragma omp single nowait 
Execute action; 


Next action; 


当 这 个 子 句 被 加 入 后 ， 系 统 选中 的 用 于 执行 该 动作 的 线程 与 以 前 一 样 ， 但 是 组 内 其 他 线程 却 不 会 等 
待 ， 它 们 会 立即 执行 Next action。nowait 子 句 还 可 以 用 于 修改 parallel for 和 for 指令 。 
6.5.2 MPI 
我 们 已 经 学 习 了 MPI 的 一 部 分 知识 。 某 些 集合 通信 函数 使 用 输入 缓冲 区 和 输出 缓冲 区 ， 可 以 
使 用 参数 MPI_IN_PLACE 来 保证 输入 和 输出 缓冲 区 是 同一 个 内 存 区 域 。 这 样 的 实现 可 以 节省 内 
存 ， 同 时 避免 从 输入 缓冲 区 到 输出 缓冲 区 的 复制 操作 。 
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函数 MPI_Scatter 和 MPI_Gather 可 分 别 用 于 分 发 一 组 数据 到 所 有 进程 和 收集 分 散 的 数据 
到 一 个 单独 的 数组 。 然 而 ， 它 们 只 能 在 每 个 进程 分 发 或 收集 的 数据 量 一 致 的 情况 下 使 用 。 如 果 需 
要 分 配 不 同 数量 的 数据 给 每 个 进程 ， 或 者 从 每 个 进程 收集 数量 不 同 的 数据 ， 那么 可 以 分 别 使 用 
MPI_Scatterv 和 MPI_Gatheryv: 


int MPI_Scatterv( 


void* sendbuf /* In */, 
int* sendcounts /kk Tn #*/, 
intx displacements A* in */, 
MPI-Datatype sendtype A* in *¥/, 
voidx* recvbuf /* OuUt */, 
int recvcount /x in x*/, 
MPI-Datatype recvtype /x in #*/, 
int root /# in x*/, 
MPI_Comm Comm /# in */); 


int MPIi.Gathervt( 


void* sendbuf /A# in */, 
int sendcount /A* in */, 
MPI-Datatype sendtype /# Tn #*/, 
void* recvbuf /+ OUt */, 
int* recvcounts /x# in #/, 
ints displacements /es in x*/, 
MPI_Datatype recvtype /*¥ in #*/, 
int root /x in */, 
MPI_Comm Comm /x in */):; 


MPI_Scattery 里 的 参数 sendcounts 和 MPI_Gatherv 里 的 参数 recvcounts 是 有 comm_sz 
个 元 素 的 数组 。 它 们 表示 的 是 要 传输 数据 的 大 小 (以 sendtype /recvtype 为 单位 ) 。 参 数 
displacements 也 是 有 comm_sz 个 元 素 的 数组 。 它 们 表达 的 是 要 传输 数据 的 偏 移 量 (以 
sendtype/recvtype 为 单位 ) 。 

这 里 有 一 个 特别 的 操作 符 ，MPI_MIN_L0OC， 可 用 在 MPI_Reduce 和 MPI_A11reduce 中 。 
它 作 用 于 多 对 数值 ， 并 返回 一 对 数值 。 如 果 数 据 对 是 : 

(a0,00), (cb ) (acom sai bcom sz-1)， 

假设 a 是 a, 中 的 最 小 值 ，g 是 a 所 出 现在 的 进程 中 最 小 的 进程 号 。 那 么 MPI_MIN_LOC 操作 符 返 
回 (a,，b,)。 使 用 它 ， 不仅 可 以 用 来 求解 最 小 代价 回路 ,通过 确定 b, 的 进程 号 ， 还 能 确定 拥有 
最 小 代价 回路 的 进程 。 

在 并 行 化 树 搜索 的 两 个 MPI 实现 里 ， 我 们 重复 使 用 MPI_Iprobe: 


int MPI-Iprobe: 


int source /* In */, 
int tag [ur jn */, 
MPI_Comm comm /*¥ in */, 
Tntx* msg-avail.p /* OUt */, 
MPI-Status Status-p Ak OUt */); 


使 用 它 检查 是 否 有 一 条 来 自 Source 的 标志 为 tag 的 可 接收 消息 。 如 果 有 , 将 msg_avail_p 赋 B39 
值 为 ue。 注意 MPI_Iprobe 不 会 真 的 接收 消息 ,但 是 如 果 有 消息 可 用 ， 可 以 调用 MPI_Recy 接 

收 消息 。 参 数 source 和 tag 分 别 可 以 是 通配符 MPI_ANY_SOURCE 和 MPI_ANY_TAG。 例 如， 我 

们 经 常 想 要 检查 是 否 有 进程 发 送 了 带 有 新 的 最 佳 回路 的 消息 ， 就 可 以 进行 以 下 调用 : 


MPI_Iprobe(MPI_ANY_SOURCE ， NEW_COST_TAG, comm, &msg_avail, 
&status ) ; 


如 果 有 消息 可 用 ， 它 的 来 源 由 参数 * status_p 返回 。 因 此 ，status.MPI_SOURCE 可 以 用 于 接 
收 消息 : 
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MPI_Recvy(B&new-.cost, 1, MPI_.INT, status.MPI_SOURCE, NEW-COST_TAG, 
comm，MPI-STATUS_IGNORE ) ; 


有 多 种 情况 希望 发 送 函 数 直 接 返 回 ， 而 不 考虑 消息 是 否 已 经 真 地 发 送出 去 了 。MPI 里 的 一 种 
做 法 是 使 用 缓冲 发 送 模式 。 在 缓冲 发 送 时 ， 用 户 程序 通过 调用 MPI_Buffer_attach 分 配 存储 空 
间 。 然 后 当 程 序 调用 MPI_Bsend 发 送 消息 时 ， 消 息 既 可 能 立即 发 送 ， 也 可 能 被 复制 到 用 户 程 序 
提供 的 缓冲 区 里 。 这 两 种 情况 下 调用 都 会 返回 而 不 会 阻塞 。 在 程序 不 需要 使 用 缓冲 发 送 模式 时 ， 
可 以 调用 MPI_Buffer_detach 来 恢复 缓冲 区 。 

MPI 也 提供 了 其 他 三 种 发 送 模式 : 同步 (synchronous) 、 标 准 (standard) 、 就 绪 (ready)。 同 
步 发 送 不 会 缓冲 数据 ; 同步 发 送 函 数 MPI_Ssend 在 接收 者 开始 接收 数据 前 不 会 返回 。 在 就 绪 发 
送 (MPL_Rsend) 下 ,在 匹配 的 接收 者 没有 准备 好 之 前 ， 发 送 操作 是 错误 的 。 一 般 的 MPI_Send 
函数 称 为 标准 发 送 模 式 。 

在 习题 6. 22 里 ， 我 们 设计 了 一 个 缓冲 发 送 模式 的 替代 方法 : 非 阻 塞 发 送 。 正 如 名 字 所 表示 
的 那样 ， 非 阻塞 发 送 模式 不 考虑 消息 是 和 否 已 经 发 送出 去 ， 它 直接 返回 。 然 而 ， 要 完成 发 送 操作 ， 
需要 调用 一 个 函数 ， 这 个 函数 是 多 个 等 待 非 阻塞 操作 完成 的 函数 中 的 一 个 。 我 们 还 有 非 阻 塞 接收 
项 数 。 

因为 一 个 系统 的 地 址 空间 一 般 与 另外 一 个 系统 是 不 相关 的 ， 用 MPI 消息 发 送 指针 是 不 可 行 
的 。 如 果 数 据 结构 中 有 拱 人 指针 成 员 ， 那 么 MPI 就 会 提供 函数 MPI_Pack 将 指针 所 指向 的 数据 存 
储 到 一 块 连续 的 缓冲 区 内 ， 然 后 把 这 块 缓冲 区 发 送出 去 。 类 似 地 ， 函 数 MPI_Upack 的 功能 正好 

相反 。 它 们 的 句法 是 ; 


int MPI-Pack( 


Vo1d* data-to-be-packed /* in 水 1/ ， 
int to-be-packed-count /x in */， 
MPI-Datatype datatype /x Iin */， 
voOid* contig.buf /* Out 炒 / ， 
int contig-buf_-size /# in 水 / ， 
ints position-p /*# in/out */, 
MPI-Comm Comm /* Tn */); 


Tnt MPI-Unpack( 


void* contig-buf /* in */， 
int contig-buf-size /in */， 
1ntx Position-pP /* in/out */, 
vo1d* unpacked.data /* out 水 1/ ， 
int Unpack-count /* Iin */， 
MPI-Datatype datatype /* in */， 
MPI_Comm COMM /* 1n 4/); 


使 用 它们 的 关键 是 参数 position_p。 调 用 MPI_Pack 时 ， 它 指向 contig_buf 中 第 一 个 可 用 位 
置 。 所 以 开始 打包 数据 时 ，* position_p 应 设置 为 0。 当 MPI_Pack 返回 时 ，* position_ 
p 是 打包 数据 后 的 第 一 个 位 置 。 因 此 ， 可 以 连续 调用 MPI_Pack， 把 一 个 数据 结构 的 连续 成 员 打 
包 到 单独 的 缓冲 区 内 。 当 打包 的 缓冲 区 被 接收 时 ， 数 据 可 以 用 同样 的 方式 解 包 。 需 要 注意 的 是 ， 
当 调 用 MPI_Pack 打包 的 缓冲 区 被 发 送 后 ， 发 送 和 接收 的 数据 类 型 就 应 该 是 MPI_PACKED。 


6.6 习题 


6.1 在 串 行 n 体 问题 算法 的 每 一 次 迭代 中 ， 首 先 计算 每 一 个 粒子 所 受 的 总 作用 力 ， 然 后 为 每 一 个 粒子 计算 
它们 的 位 置 和 速度 。 是 否 可 以 重新 组 织 代码 ， 使 得 在 每 一 次 迭代 中 ， 在 进入 下 一 个 粒子 的 计算 前 ， 能 
够 先 完成 对 一 个 粒子 的 所 有 计算 。 或 者 说 ， 是 否 可 以 采用 以 下 伪 代 码 ; 
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for each timestep 
for each particle { 
Compute total force on particle; 
Find position and velocity of particle; 
Print position and velocity of particle; 
} 


如 果 可 以 ， 还 需要 做 其 他 哪些 修改 ? 如 果 不 可 以 ， 为 什么 不 可 以 ? 
运行 基本 的 串 行 n 体 问题 算法 1000 个 时 间 步 长 ， 一 个 时 间 步 长 为 0. 05， 无 输出 ， 也 没有 内 部 产生 的 


初始 变量 。 粒 子 的 数目 为 500 ~ 2000 个 。 随 着 粒子 数目 的 增加 ， 运 行 时 间 是 如 何 改 变 的 ?如 果 程 序 运 


行 24 小 时 ， 你 能 推断 和 预测 这 个 算法 能 够 处 理 多 少 个 粒子 吗 ? 

用 OpenMP 或 者 Pthreads 来 并 行 化 n 体 问 题 的 简化 版 本 算法 ， 使 用 一 条 critical 指令 (OpenMP) 或 
者 一 个 互 斥 量 (Pthreads) 来 保护 force 数组 。 通 过 并 行 化 内 层 for 循环 来 并 行 化 算法 的 剩 下 部 分 。 
与 串 行 算法 相 比 ， 这 个 代码 的 性 能 如 何 ? 解释 你 的 回答 。 

用 OpenMP 或 者 Pthreads 来 并 行 化 n” 体 问题 的 简化 版 本 算法 ， 并 且 对 每 一 个 粒子 使 用 一 个 锁 / 互 斥 量 。 
锁 / 互 斥 量 是 用 来 对 force 数组 的 更 新 实施 保护 的 。 通 过 并 行 化 内 层 for 循环 来 并 行 化 解法 的 剩 下 部 
分 。 与 串 行 算法 相 比 ， 这 个 代码 的 性 能 如 何 ?” 解释 你 的 回答 。 

在 这 个 共享 内 存 ” 体 问题 的 简化 版 本 算法 中 ， 如 果 在 两 个 计算 作用 力 阶 段 都 使 用 块 划分 方法 ， 那 么 第 
二 个 阶段 的 循环 语句 可 以 改变 ,将 for thread 循环 的 终止 变量 从 thread_count 改变 为 my_rank。 
即 代码 : 


# pragma omp for 
for (part = 0; part < n; part++) { 
forces[part][X] = forces[part][Y] = 0.0; 
for (thread = 0; thread «< thread_count; thread++) { 
forces[part][X] += 10c-forces[thread][part][X]; 
forces[part][Y] += 10C-forces[thread][part]rY]; 
} 
} 
改变 为 ; 


# pragma omp for 
for (part = 0; part < n; part++) { 
forces[part][X] = forces[part][Y] = 0.0; 
for (thread = 0; thread < my.rank; threadt+) { 
forces[part][X] += 10cC-forces[thread][part][X]; 
forces[part][Y] += 10C-forces[thread]j[part]ryY]i 
} 
} 
解释 为 什么 这 个 改变 是 可 行 的 。 运 行 改变 后 的 程序 ， 并 将 它 的 性 能 与 原来 实现 了 块 划 分 的 代码 ， 以 及 
在 第 一 个 计算 作用 力 阶 段 使 用 循环 划分 的 代码 相 比较 。 你 能 得 出 什么 结论 ? 
在 讨论 用 OpenMP 实现 基本 的 n 体 问 题解 法 时 ， 我 们 观察 到 输出 语句 隐 含 的 路 障 同步 是 不 需要 的 。 因 
此 可 以 在 single 指令 增加 一 个 nowait 子 句 。 另 外 ， 在 两 个 for each particle 9 循环 语句 中 为 
for 指令 增加 nowait 子 句 ， 也 有 可 能 消除 循环 语句 隐 含 的 路 障 同 步 。 这 样 做 会 出 现 问题 吗 ? 解释 你 
的 回答 。 
对 于 nn 体 问 题 的 简化 版 本 算法 的 共享 内 存 实现 ,我们 看 到 不 管 是 否 降 低 了 高 速 缓存 的 性 能 ， 对 作用 力 
的 计算 采用 循环 调度 比 采用 块 划分 调度 性 能 更 好 。 用 OpenMP 和 Pthreads 的 实现 进行 实验 ， 观 察 不 同 
的 块 - 循环 调度 程序 的 性 能 。 对 你 的 系统 ， 存 在 一 个 最 优 的 块 大 小 吗 ? 
x 和 ?都 是 双 精 度 的 = 维 向 量 ， 而 a 是 一 个 双 精 度 标 量 ， 我 们 称 以 下 赋值 ; 
yorty 

为 双 精 度 的 ae 乘 以 下 再 加 上 了 (Double precision Alpha times 入 plus Y，DAXPY) 编写 一 个 OpenMP 或 者 
Pthreads 程序 ， 在 主线 程 中 生成 两 个 随机 ” 维 大 数组 、 一 个 随机 标量 ， 它 们 的 类 型 都 是 double。 然 后 
由 多 个 线程 对 随机 生成 的 数据 执行 DAXPY。 用 大 数值 的 n 和 不 同 数目 的 线程 来 运行 程序 ， 比 较 分 别 采 
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用 块 划分 和 循环 划分 对 数组 进行 划分 时 ， 程 序 的 性 能 。 哪 一 种 划分 策略 的 性 能 较 好 ? 为 什么 ? 

编写 一 个 MPI 程序 ， 程 序 的 每 一 个 进程 都 生成 一 个 初始 化 好 的 、m 维 double 型 的 大 数组 。 然 后 对 这 
些 m 维 数组 执行 MPI_A11gather。 比 较 下 面 两 种 情况 下 MPI_A11gather 的 性 能 ， 调 用 MPI_A11- 
gather 生成 的 全 局 大 数组 分 别 是 : 

a. 块 分 布 

b. 循环 分 布 

为 了 使 用 循环 分 布 ， 可 以 从 本 书 的 网 站 上 下 载 cyclic_derived.c 的 代码 ， 并 用 这 个 代码 生成 的 
MPI 数据 类 型 作为 调用 MPI_A11gather 生成 的 目标 。 例 如 ， 进 行 以 下 调用 : 


MPI_Al1lgather(sendbuf, m, MPI_DOUBLE, recvbuf, 1, cyclic_mpi.t, 
Comm) ; 
新 生成 的 MPI 数据 类 型 叫 cyc1ic_mpi_t。 
数组 采用 哪 种 分 布 ， 性 能 更 好 ? 为 什么 ? 注意 不 要 把 创建 派生 数据 类 型 的 开销 计算 进去 。 
考虑 以 下 代码 : 


int n, threadcount, i1i, chunksize: 
double x[n], y[n], a; 


# pragma omp parallel num_threads(thread_-count) \ 
default(none) private(i) \ 
shared(x, y, a, n, thread.count, chunksize) 


# | pragma omp for schedule(static, n/thread_count) 
for (i = 0; i < n; it+) { 

x[i] = f(i); /x fF is a function #/ 

y[i] = g(i); /x 9 is 8 function */ 
# ragma omp for schedule(static, chunksize) 

for (i = 0; i < n; i++) 
y[i] += a#x[i]; 
} /* omp parailel */ 

假定 n=64，thread_count =2， 高 速 缓存 行 的 大 小 是 8 个 double， 每 一 个 核 有 一 个 能 存储 131 
072 个 double 型 数据 的 二 级 (12) 高 速 缓存 。 如 果 chunksize = n 人 thread_count， 那么 在 第 二 
个 循环 中 会 出 现 多 少 次 [2 高 速 缓存 缺失 ? 你 可 以 假定 x 和 y 都 按照 高 速 缓存 行 的 边界 对 齐 存储 。 即 
x[0] 和 y[0] 都 是 它们 所 在 的 高 速 缓存 行 的 第 一 个 元 素 。 
编写 一 个 MPI 程序 ， 比 较 使 用 MPI_IN_PLACE 和 MPI_A11gather 和 每 一 个 进程 使 用 分 离 的 发 送 和 
接收 缓冲 区 的 MPI_A11gather 的 性 能 。 在 运行 单 进程 时 ， 哪 种 MPI_A11gather 运行 得 更 快 一 些 ? 
在 多 进程 的 情况 下 又 如 何 ? 
a 修改 体 问题 算法 的 基本 MPI 实现 ， 对 局 部 的 位 置信 息 采 用 分 离 的 数组 来 存储 。 与 原来 的 =” 体 问 
题 算法 相 比 ， 性 能 如 何 ?( 比较 输入 /输出 关闭 的 性 能 。) 
b. 修改 n 体 问题 算法 的 基本 MPI 实现 ， 对 质量 信息 进行 分 散 存 储 。 对 于 程序 中 的 通信 部 分 需要 做 哪 
些 修改 ” 与 原来 的 算法 相 比 ， 性 能 如 何 ? 
使 用 图 6-6 为 指导 ， 画 出 简化 的 =” 体 算法 MPI 实现 的 进程 间 通 信 图 。 假 设 有 3 个 进程 ，6 个 粒子 ， 粒 
子 在 进程 之 间 的 分 配 是 循环 分 配 。 
修改 简化 的 =” 体 算法 的 MPI 版 本 。 使 用 两 次 调用 MPI_Sendrecv_replace 来 代替 每 一 个 阶段 的 环 
形 传递 。 与 只 单独 调用 一 次 MPI_Sendrecv_rep1ace 相 比 较 ， 这 个 实现 性 能 如 何 ? 
MPI 程序 一 个 常见 的 问题 是 将 一 个 全 局 数组 的 下 标 转 换 为 局 部 数组 的 下 标 ， 反 之 亦 然 。 
a. 如果 采用 块 划分 ， 找 一 个 从 局 部 数组 下 标 转换 为 全 局 数组 下 标的 公式 。 
b. 如 果 采 用 块 划分 ， 找 一 个 从 全 局 数组 下 标 转换 为 局 部 数组 下 标的 公式 。 
c 如 果 采 用 循环 划分 ， 找 一 个 从 局 部 数组 下 标 转换 为 全 局 数组 下 标的 公式 。 
d. 如 果 采 用 循环 划分 ， 找 一 个 从 全 局 数组 下 标 转换 为 局 部 数组 下 标的 公式 。 
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在 简化 n 体 算法 实现 中 ,使 用 了 一 个 函数 Fi rst_index， 给 定 分 配给 某 个 进程 的 一 个 粒子 的 全 局 下 
标 , 该 函数 能 给 出 分 配给 另 一 个 进程 的 下 一 个 粒子 的 全 局 下 标 。 函 数 的 输入 参数 如 下 : 

a 分 配给 第 一 个 进程 的 粒子 的 全 局 下 标 。 

b. 第 一 个 进程 的 进程 号 。 

c. 第 二 个 进程 的 进程 号 。 

d. 进程 的 个 数 。 

返回 值 是 第 二 个 粒子 的 全 局 下 标 。 这 个 函数 假定 粒子 在 进程 间 循 环 分 配 。 为 First_index 函数 编写 
对 应 的 C 代码 。( 提 示 ; 考虑 两 种 情况 ， 第 一 个 进程 的 进程 号 小 于 第 二 个 进程 的 进程 号 ， 第 一 个 进程 
的 进程 号 大 于 第 二 个 进程 的 进程 号 。) 

a 使 用 图 6-10， 计 算 4 个 城市 TSP 问题 在 任意 时 刻 栈 中 最 大 的 记录 数 (提示 分 支 时 尽 可 能 地 向 左 
边 深 入 下 去 ) 。 

b. 画 出 解决 5 个 城市 TSP 问题 时 生成 的 树 的 结构 。 

c 计算 搜索 (b) 所 生成 的 树 的 栈 中 任意 时 刻 最 大 的 记录 数 。 

d. 用 上 述 问题 的 答案 推导 出 ”个 城市 TSP 问题 栈 中 任意 时 刻 最 大 的 记录 数 。 

广度 优先 搜索 可 以 实现 为 一 个 迭代 算法 ， 其 中 要 采用 一 个 队列 。 队 列 是 “ 先 人 先 出 ”的 链表 数据 结 
构 ， 队 列 中 的 元 素 出 队 的 顺序 与 人 队 的 顺序 是 一 致 的 。 可 以 用 队列 来 解决 TSP 问题 ， 广 度 优先 搜索 
的 实现 如 下 : 


queue = Init_queue(); /* Create empty queue */ 
tour = Init.tour():; /* Create partia!l tour that visits 
hometown */ 
Enqueue(queue, tour); 
While (1Empty(queue)) { 
tour = Dequeue(queue ) 
if (City-count(tour) == n) { 
if (Best_tour(tour)) 
Update-best-tour(tour) 
} else { 
for each neighboring city 
if (Feasible(tour, city)) 1{ 
Add-city(tour, city); 
Enqueue(tour ) ; 
Remove-last_city(tour) 
} 
} 
Freetour(tour); 
As While lIEmpty */ 


这 个 算法 虽然 是 正确 的 ， 但 当 城市 数目 超过 10 时 ， 实 现 起 来 相当 困难 。 为 什么 ? | 

在 TSP 问题 的 共享 内 存 解决 方案 中 ， 可 以 使 用 广度 优先 搜索 来 创建 初始 回路 列表 ， 这 些 回路 能 分 配 

给 各 个 线程 。 

a 修改 上 述 代 码 ， 以 便 线程 0 可 以 用 此 代码 来 生成 数目 至 少 为 thread_count 的 回路 队列 。 

b. 一 旦 线程 0 生成 了 回路 队列 ， 编 写 出 各 个 线程 如 何 用 队列 里 的 一 部 分 回路 来 初始 化 自己 栈 的 伪 
代码 。 

修改 静态 树 搜索 的 Pthreads 实现 ， 用 读 写 锁 来 保护 最 佳 回 路 的 检查 操作 。 调 用 Best_tour 对 最 佳 回 

路 读 锁 ,调用 Update_best_tour 对 最 佳 回 路 写 锁 。 用 多 个 数据 集 来 测试 修改 的 代码 ， 并 分 析 这 些 

改变 会 怎样 影响 总 的 运行 时 间 。 

假设 进程 /线程 A 的 栈 中 有 并 条 回路 。 

a 也 许 在 TSP 问题 中 实现 栈 分 离 最 简单 的 一 种 策略 是 把 A 现 有 栈 中 的 iv/2 条 回路 出 栈 ， 并 把 它们 压 
人 新 栈 中 。 解 释 为 什么 这 不 是 一 个 好 策略 。 

b. 另 一 个 简单 的 划分 方法 是 根据 栈 中 部 分 回路 的 代价 来 划分 。 最 小 代价 的 部 分 回路 留 在 A 中 ,下 一 
个 最 小 代价 的 部 分 回路 到 new_stack 中 ,第 三 个 最 小 代价 的 部 分 回路 到 A 中 ， 以 次 类 推 。 这 个 
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方法 是 一 个 好 策略 吗 ? 请 给 出 你 的 答案 并 详细 分 析 。 

c. b 方 案 的 一 个 变 体 是 使 用 边 的 平均 代价 。 该 变 体 中 ，A 的 栈 中 回路 排序 的 依据 是 ， 按 照 回路 的 代价 
除 以 回路 中 边 的 条 数 所 得 到 的 结果 来 排序 。 然 后 采用 轮转 方式 来 分 配 这 些 回 路 。 排 序 第 1 的 回路 
分 配给 A， 下 一 个 排 在 第 2 位 的 回路 分 配给 new_stack， 以 次 类 推 。 这 是 一 个 好 策略 吗 ? 请 给 出 
你 的 答案 并 详细 分 析 。 

在 动态 负载 平衡 的 代码 中 实现 上 述 三 种 方案 ， 对 这 三 种 方案 进行 比较 ， 并 将 它们 与 书 中 的 方案 进行 

比较 ， 解 释 如 何 收集 数据 。 

a. 修改 TSP 问题 的 静态 MPI 程序 ， 使 得 每 个 进程 都 使 用 自己 本 地 的 最 佳 回 路 数据 结构 ， 直 到 它 完成 
搜索 为 止 。 当 所 有 的 进程 执行 完成 后 ， 所 有 的 进程 执行 一 个 全 局 归 约 操作 来 找 出 最 小 代价 回路 。 
该 方案 与 静态 实现 相 比 较 ， 性 能 上 有 什么 不 同 ? 你 能 否 找 出 一 些 例子 ， 使 得 该 方案 的 性 能 与 原来 
的 静态 实现 差别 不 大 吗 ? 

b. 创建 一 个 TSP 有 向 图 ,要求 其 分 配给 进程 1，2，…，comm_sz -1 的 初始 回路 都 有 一 条 边 ， 该 边 
的 代价 要 比 进程 0 中 任意 一 条 完整 回路 的 代价 高 。 使 用 comm_sz 个 进程 来 解决 这 个 问题 时 ， 有 哪 
些 不 同 的 实现 方案 ? 

MPI_Recv 和 我 们 学 习 过 的 每 一 个 发 送 操作 都 是 阻塞 式 的 。MPI_Recv 在 没有 收 到 消息 前 不 会 返回 ， 

不 同 的 发 送 操作 在 消息 没有 发 送 或 没有 缓冲 前 不 会 返回 的 。 因 此 ， 当 这 些 操作 返回 时 ， 就 能 得 知 消 

息 缓冲 区 参数 的 状态 。 对 于 MPI_Recv， 消 息 缓冲 区 含有 接收 到 的 消息 ， 至 少 表 示 目 前 没有 发 生 错 

误 。 而 对 于 发 送 操作 ， 消 息 缓冲 区 可 以 被 重用 。MPI 还 提供 了 上 述 函 数 的 非 阻塞 版 本 ,一 旦 MPI 运 

行 时 ， 系 统 记录 了 该 操作 ， 它 们 会 立刻 返回 。 此 外 ， 当 它们 返回 时 ， 消 息 缓冲 区 参数 不 能 被 用 户 程 

序 访问 ，MPI 运行 时 ， 系 统 可 以 使 用 实际 的 用 户 消息 缓冲 区 来 存储 消息 。 这 样 做 有 一 个 优点 : 消息 不 

用 从 MPI 提供 的 存储 区 中 复制 出 来 或 者 复制 回去 。 

当 用 户 程序 想 要 重用 消息 缓冲 区 时 ， 它 可 以 通过 调用 一 个 MPI 函数 来 强制 这 些 操作 完成 。 因 此 ， 非 

阻塞 操作 把 一 次 通信 分 成 两 个 阶段 : 

。 开始 通信 时 调用 一 个 非 阻塞 式 的 函数 。 

。 调 用 一 个 结束 函数 来 完成 通信 。 

每 一 个 非 阻塞 式 发 送 函 数 与 阻塞 式 的 版 本 有 着 相同 的 语法 ， 不 过 非 阻塞 式 版 本 在 最 后 多 了 一 个 请 求 

参数 。 例 如 ， 





int MPI-ISsend 
void* msg /A* in */, 
int count /x* in #*/, 
MPI-Datatype datatype Ar in */, 
int dest /* 7n */， 
int tag /x in #*/, 
MPI_Comm Comm /* in */ 


MPpI_Request* request.p /* Out */); 


非 阻塞 式 接收 用 一 个 请 求 参 数 替代 状态 参数 。 请 求 参 数 是 实时 系统 中 用 于 区 分 各 个 操作 的 凭据 ， 当 
某 个 程序 希望 结束 操作 的 时 候 ， 结 束 函 数 就 会 调用 请 求 参数 。 
最 简单 的 结束 函数 是 MPI_Wait : 
int MPI-Wait( 

MPI_Request* request.p /x* in/out */ 

MPI_Status* status.p /x out */); 
当 它 返回 时 ， 创 建 * request_p 的 操作 也 会 完成 。 在 我 们 的 设 定 里 ，* request_p 设置 为 MPI_RE- 
QUEST_NULL，* status_p 负责 存储 完成 操作 的 信息 。 
需要 注意 的 是 ， 非 阻塞 的 接收 操作 可 用 于 匹配 阻塞 的 发 送 操作 ， 反 之 亦 然 。 
可 以 使 用 非 阻塞 发 送 实现 对 最 佳 回 路 的 广播 。 基 本 思想 是 创建 一 对 含有 comm_sz 个 元 素 的 数组 。 前 
者 用 于 存储 新 的 最 佳 回路 代价 ， 后 者 用 于 存储 请 求 信息 ， 所 以 基本 的 广播 操作 类 似 于 下 面 的 代码 : 
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int costs[comm.sz]; 
MPI_Request requests{comm-sz]; 


for (dest = 0; dest < comm.sz; dest++) 
if (my-rank != dest) { 
costs[dest] = new-best_tour-cost; 
MPI-Isend(&costs[dest]，1，MPI-INT，dest，NEN-COST_TAG ， 
comm, &requests[dest]); 
} 


requests[my.rank] = MPI_REQUEST_NULL; 


这 个 循环 完成 后 ， 发 送 操作 已 经 开始 ， 它 们 可 以 与 基本 的 MPI_Recv 匹配 。 
有 多 种 方法 可 以 处 理 随后 的 广播 操作 。 最 简单 的 方法 可 能 就 是 调用 MP1_Waital1 函数 等 待 之 前 所 有 
的 非 阻 塞 发 送 。 
int MPI_Waitallt 

int count /让 in */ 

MPI-Request requests[] /* in/out */, 

MPI-Status statuses[] /* Out */); 
在 此 函数 返回 时 ， 所 有 的 操作 应 该 都 已 经 完成 了 (假设 没有 错误 )。 注 意 : 在 请 求 值 为 MPI_REQUEST_ 
NULL 时 ,调用 MPI_Wait 和 MPI_Naitall 都 是 可 以 的 。 
在 TSP 问题 的 静态 MPI 实现 里 ， 使 用 非 阻 塞 式 发 送 实现 对 最 佳 回路 代价 的 广播 ， 其 性 能 与 采用 缓冲 
发 送 相 比 ， 性 能 如 何 ? 
MPI_Status 是 一 个 含有 成 员 : 源 (source) 、 标 签 (tag) 和 错误 代码 (error code) 的 结构 体 对 象 ， 
同时 它 也 含有 消息 大 小 的 信息 。 但 是 ， 该 参数 不 能 被 直接 存 取 ， 它 只 能 通过 MPI 的 旺 数 MPI_Get_ 
count 来 获取 : 


int MPI_Get_count( 

MPI_Status* status_p /x# In */, 

MPpI.Datatype datatype /x* in */, 

1nt* count.p /* OUt */); 
当 MPI_Get_count 接收 了 消息 状态 和 数据 类 型 等 参数 后 ， 它 将 返回 消息 中 类 型 为 datatype 的 对 
象 的 数量 。 因 此 ，MPI_Iprobe 和 MPI_Get_count 可 用 于 接收 消息 前 计算 相应 消息 的 大 小 。 请 用 这 
些 资 料 编写 一 个 Cleanup_messages 函数 ， 该 函数 在 MPI 程序 退出 前 调用 ， 主 要 用 于 接收 未 被 接收 
的 消息 ， 使 得 像 MPI_Buffer_detach 这 样 的 函数 不 会 被 挂 起 。 
程序 mpi_tsp_dyn.c 有 一 个 命令 行 参数 sp1it_cutoff。 如 果 某 个 部 分 回路 已 经 访问 了 split_ 
cutoff 个 或 者 更 多 的 城市 ， 那 么 该 部 分 回路 就 不 是 一 个 可 发 送 给 其 他 进程 的 候选 者 。Fu1fi11_re- 
quest 函数 只 发 送 城市 数量 少 于 sp1it_cutoff 的 部 分 回路 给 其 他 进程 。 参 数 sp1it_cutoff 是 如 
何 影响 程序 的 整体 性 能 的 呢 ?” 你 能 找到 一 个 合理 的 方法 来 确定 恰当 的 sp1it_cutoff 吗 ? 进程 数目 
( 即 comm_sz) 的 改变 又 会 怎样 影响 sp1it_cutoff 所 取 的 最 佳 值 呢 ? 
MPI 程序 不 能 发 送 指 针 ( pointer) ， 因 为 在 发 送 进程 中 合法 的 地 址 在 接收 进程 中 可 能 会 导致 段 越界 的 
错误 ， 或 者 更 糟糕 的 是 可 能 会 访问 接收 进程 中 已 经 被 使 用 的 内 存 地 址 。 有 几 种 方法 可 以 用 于 解决 该 
问题 : 
a 由 发 送 者 将 指针 所 指向 的 对 象 打包 到 连续 的 存储 空间 ， 然 后 由 接收 者 来 解 包 。 
b. 发 送 者 和 接收 者 可 以 创建 MPI 派生 数据 类 型 ， 用 于 映射 发 送 者 使 用 的 存储 空间 和 接收 者 的 有 效 存 

储 空间 。 

请 设计 两 个 Send_linked_list 函数 和 两 个 与 之 相 匹 配 的 Recv_1inked_1ist 函数 。 第 一 对 发 送 
和 接收 函数 使 用 MPI_Pack 和 MPI_Unpack 函数 。 第 二 对 发 送 和 接收 函数 使 用 派生 类 型 。 第 二 对 发 
送 和 接收 函数 需要 发 送 两 个 消息 : 一 个 用 于 告诉 接收 者 链表 中 结 点 的 数量 ， 另 外 一 个 用 于 发 送 真 实 
的 链表 。 比 较 并 分 析 这 两 种 方案 的 性 能 。 与 发 送 一 块 连续 的 、 大 小 与 打包 后 的 链表 一 致 的 内 存 区 相 
比 ， 它 们 的 性 能 又 如 何 ? 
TSP 问题 解法 的 动态 划分 MPI 实现 使 用 了 终止 检测 算法 ， 这 个 算法 可 能 需要 使 用 高 精度 的 算术 运算 
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( 即 有 很 大 的 分 子 和 分 母 的 分 数 计算 ) 

a. 如 果 总 的 能 量 数目 是 comm_sz， 请 解释 一 下 为 什么 进程 存储 的 能 量 会 有 格式 为 /2* 的 形式 ， 其 中 
为 非 负 整 数 。 这 种 形式 下 ， 任 何 一 个 进程 存储 的 能 量 除 了 进程 0 之 外 ， 都 可 以 用 上 来 表示 ,上 为 
无 符号 整数 。 

b. 请 解释 为 什么 (a) 中 的 表达 几乎 不 可 能 出 现 上 溢 或 者 下 洲 。 

c. 另 一 方面 ， 进 程 0 需要 存储 一 个 分 子 不 是 1 的 分 数 。 请 解释 如 何 用 一 个 无 符号 整数 作为 分 母 、 一 
个 二 进 制 数组 作为 分 子 来 实现 这 样 一 个 分 数 。 这 样 的 实现 如 何 解决 分 子 溢出 问题 ? 

如 果 TSP 问题 的 动态 MPI 实现 有 很 多 进程 ， 并 且 需 要 多 次 重新 分 配 任务 ， 那 么 进程 0 可 能 会 成 为 能 

量 返 回 的 瓶颈 。 请 解释 如 何 使 用 进程 的 生成 树 ， 其 中 子 进程 可 以 发 送 能 量 给 自己 的 父 进 程 而 不 是 进 

程 0。 

修改 使 用 了 MPI 和 动态 搜索 树 划分 的 TSP 问题 解决 方案 ， 以 使 得 每 个 进程 都 会 汇报 各 自发 送 “ 无 任 

务 可 做 ”消息 给 进程 0 的 次 数 。 请 推测 : 接收 和 处 理 “ 无 任务 可 做 ”消息 会 怎样 影响 进程 0 总 的 运 

行 时 间 。 

在 mpi_tsp_dyn.c 中 的 源 代码 文件 中 含有 TSP 问题 的 动态 分 割 MPI 实现 ， 为 确定 请 求 任 务 的 消息 

应 该 发 送 给 谁 ， 在 线 版 本 使 用 的 是 6. 2. 12 节 中 提 到 的 三 个 方案 的 第 一 个 方案 。 请 用 其 他 两 种 方法 来 

解决 该 问题 ， 并 对 比 这 三 者 各 自 的 性 能 。 是 否 有 一 种 方法 的 性 能 总 是 比 其 他 两 种 好 ? 

针对 体 问 题 和 TSP 问题 ， 确 定 3 种 API 中 哪 一 种 更 合适 该 问题 。 

a. 分 析 每 个 串 行程 序 分 别 需 要 多 少 存储 空间 。 当 用 并 行程 序 来 解决 大 问题 时 ， 它 们 是 否 可 以 适应 共 
享 内 存 系统 的 在 储 条 件 ? 对 于 分 布 式 内 存 系统 又 如 何 呢 ? 

b. 对 于 每 个 并 行 算 法 而 言 ， 究 竟 需 要 多 少 通信 呢 ? 

c. 串 行 程序 可 以 很 容易 地 使 用 OpenMP 指令 改写 为 并 行程 序 吗 ? 是 否 需 要 如 条 件 变量 和 读 写 锁 等 同 
步 结 构 ? 
比较 你 的 想法 和 实际 程序 的 性 能 。 你 是 否 做 出 了 正确 的 选择 ? 
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用 典型 的 四 阶 龙 格 库 塔 (Runge Kutta) 法 来 求解 常 微分 方程 。 用 这 种 方法 代 兰 欧 拉 法 来 估计 ss(t) 和 
si (1)。 修 改 串 行 的 n 体 问题 解法 的 简化 版 本 、Pthreads 或 者 OpenMP 实现 的 n 体 问 题解 法 ， 以 及 MPI 
实现 的 n 体 问题 解法 。 与 使 用 欧 拉 方法 所 得 到 的 输出 相 比 ， 这 些 解 法 得 到 什么 输出 ? 比较 这 两 种 方法 
的 性 能 。 

修改 n 体 问题 解法 的 基本 MPI 实现 ， 使 程序 用 一 个 环形 传递 代替 对 MPI_A11gather 的 调用 。 当 一 个 
进程 收 到 分 配给 其 他 进程 的 粒子 的 位 置信 息 时 ， 它 计算 出 它 所 分 配 到 的 粒子 与 收 到 信息 的 粒子 之 间 由 
于 相互 作用 导致 的 所 有 作用 力 。 当 收 到 comm_sz 一 1 组 位 置信 息 后 ,每 一 个 进程 应 该 能 计算 出 它 
所 管理 的 粒子 所 受到 的 总 作用 力 。 比 较 原来 的 基本 MPI 实现 ， 这 种 方法 性 能 如 何 ? 与 简化 算法 的 MPI 
实现 相 比 性 能 又 如 何 ? 

我 们 可 以 使 用 共享 内 存 来 模拟 环形 传递 : 


Compute loc_forces and tmp-forces due to my particle 
interactions; 

Notify dest that tmp-forces are available; 

for (phase = 1; phase < thread_count; phase++) { 
Wait for Source to notify me that tmp.forces are available: 
Compute forces due to my particle interactions with 

‘‘received’’ particles; 

Notify dest that tmp-forces are available: 


j} 
Add my tmp_-forces into my loc_forces; 


为 了 实现 它 ， 主 线程 可 以 为 总 作用 力 分 配 n 个 存储 位 置 ， 为 “临时 ”作用 力 分 配 n 个 存储 位 置 。 每 个 
线程 会 对 两 个 数组 中 存储 位 置 的 部 分 子 集 进 行 操作 。 最 容易 实现 “通知 ”和 “等 待 ”的 方法 是 信和 号 
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量 。 主 线程 可 以 为 每 一 个 源 -目标 对 分 配 一 个 信号 量 并 将 每 一 个 信号 量 初始 化 为 0 (或 “上 锁 ”")。 在 

一 个 线程 完成 了 作用 力 计算 后 ， 它 可 以 调用 Sem_post 通知 目标 进程 ; 一 个 线程 可 以 阻塞 在 调用 Sem 

_Wait 上 ,等 待 下 一 组 作用 力 可 用 。 用 Pthreads 实现 这 个 方案 。 它 的 性 能 与 原始 的 简化 版 本 的 

OQpenMP/Pthreads 实现 相 比 性 能 如 何 ? 与 简化 版 本 的 OpenMP/Pthreads 实现 相 比 ， 这 个 方案 的 内 存 利 用 

率 如 何 ? 与 简化 的 MPI 实现 相 比 又 如 何 ? 

通过 让 每 个 进程 仅 存 储 n/comm_sz 个 质量 ,并 将 质量 与 位 置 和 作用 力 信 息 那 样 传递 ， 简 化 的 4 体 问 

题 MPI 实现 可 以 进一步 简化 。 这 个 实现 需要 为 tmp_data 数组 增加 附加 的 nAcomm_sz 个 double 型 的 

存储 空间 。 这 个 改变 会 如 何 改变 解决 方案 的 性 能 ?与 原来 的 n 体 问题 MPI 实现 相 比 ， 所 需要 的 内 存 空 

间 有 什么 不 同 ? 与 简化 版 本 的 OpenMP 实现 相 比 ， 这 个 方案 的 内 存 利用 率 如 何 ? 

树 搜索 的 OpenMP 动态 划分 实现 有 一 个 Terminated 隆 数 ， 它 使 用 的 是 忙 - 等 待 的 方式 ， 这 种 方式 可 

能 会 极 大 地 消耗 系统 的 资源 。 问 一 下 系统 管理 员 Pthreads 和 OpenMP 是 否 可 以 在 程序 中 一 起 使 用 。 如 

果 可 以 ， 那 就 修改 OpenMP 动态 划分 实现 的 代码 ， 用 Pthreads 和 条 件 变 量 来 解决 重新 分 配 任务 和 终止 

问题 。 比 较 前 后 两 种 方案 的 性 能 。 

我 们 讨论 的 树 搜索 的 迭代 实现 使 用 的 是 基于 数组 的 栈 。 修 改 Pthreads 和 OpenMP 动态 分 割 树 搜索 实现 

的 程序 ， 以 使 得 它 可 以 使 用 基于 链表 的 栈 。 该 方案 的 性 能 如 何 ? 

在 命令 行 参数 中 加 入 “截止 大 小 ， 截 止 大 小 又 会 怎样 影响 系统 的 性 能 呢 ? 

使 用 Pthreads 和 OpenMP 实现 一 个 基于 共享 栈 的 树 搜索 程序 。 正 如 文中 所 讨论 的 ， 调 用 Push 和 Pop 

操作 全 部 都 访问 共享 栈 时 很 没有 效率 ， 所 以 应 该 在 每 个 线程 里 使 用 一 个 各 自 的 私有 栈 。 然 而 ，Push 

函数 偶尔 会 压 人 一 些 部 分 回路 进入 共享 栈 ，Pop 函数 也 会 对 共享 栈 执行 一 些 出 栈 操作 〈 如 果 调 用 线程 

已 经 完成 任务 ) 。 因 此 ， 程 序 中 需要 增加 一 些 输入 参数 ， 

a. 把 回路 压 人 共享 栈 的 频率 。 这 可 以 是 一 个 tnt 型 整数 。 例 如 ， 如 果 线 程 生成 的 第 10 个 回路 径 应 该 
压 人 共享 栈 ， 那 么 命令 行 参 数 应 该 是 10。 

b、 人 栈 操作 的 块 大 小 。 如 果 人 栈 操作 是 一 次 压 人 一 块 〈《 含 有 多 个 回路 ) ， 而 不 是 单一 的 回路 进入 共享 
栈 ， 那么 会 减少 很 多 竞争 。 

c. 出 栈 操作 的 块 大 小 。 如 果 在 没有 任务 可 做 的 时 候 ， 每 次 出 栈 操作 都 只 是 一 个 回路 ， 那 么 对 于 共享 栈 
而 言 ， 会 有 更 多 的 竞争 产生 。 

一 个 线程 如 何 确定 程序 已 经 终 上 了 呢 ? 

请 用 Pthreads 和 OpenMP 实现 这 个 设计 ， 以 及 你 自己 的 终止 检测 算法 。 不 同 的 输入 参数 是 如 何 影 响 程 

序 性 能 的 ? 这 个 程序 的 性 能 与 书 中 动态 负载 均衡 实现 的 性 能 相 比 又 如 何 呢 ? 
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既然 你 已 经 有 了 使 用 MPI、Pthreads 和 OpenMP 来 编写 并 行程 序 的 基础 ， 也 许 你 想 知 道 是 否 还 
有 其 他 的 方法 可 以 使 用 。 答 案 当 然 是 有 。 下 面 是 一 些 深 入 阅读 的 主题 。 对 于 每 个 主题 我 们 都 列 出 
了 一 些 参考 文献 。 需 要 注意 的 是 ， 这 只 是 个 简单 列表 ， 并 行 计 算是 一 个 快速 变化 的 领域 。 在 深入 
研究 前 ， 你 也 许 需要 在 因特网 上 做 一 些 搜索 。 

1. MPI 

MPI 是 一 个 庞大 而 不 断 发 展 的 标准 。 我 们 只 讨论 了 原 标 准 中 的 一 部 分 ，MPI - 1。 我 们 已 经 了 
解 了 一 些 点 对 点 和 集体 通信 ， 以 及 一 些 创 建 派生 数据 类 型 的 辅助 工具 。MPI - 1 还 提供 了 创建 与 
管理 通信 子 和 拓扑 结构 的 标准 。 我 们 简单 地 讨论 了 通信 子 ; 一 个 通信 子 是 一 组 可 以 相互 发 送 消息 
的 进程 。 拓 扑 结构 提供 了 一 种 手段 来 对 通信 子 中 的 进程 施加 逻辑 结构 。 例 如 ， 我 们 讨论 了 通过 分 
配 和 矩阵 的 行 块 给 每 个 进程 来 将 矩阵 划分 给 一 组 MPI 进程 。 在 许多 应 用 中 ， 分 配子 矩阵 块 给 进程 会 
更 加 方便 。 在 这 样 的 应 用 中 ， 有 用 的 想法 就 是 把 所 有 进程 想象 成 矩形 网 格 ， 网 格 里 的 进程 是 由 其 
处 理 的 子 矩 阵 来 区 分 。 拓 扑 结构 为 我 们 提供 了 一 种 区 分 的 方法 。 例 如 ， 我 们 可 以 用 第 二 行 和 第 四 
列 来 表示 进程 3。 参考 文献 [23，43,，47] 提供 了 MPI - 1 更 详细 的 介绍 。 

与 MPI-1 相 比 ，MPI -2 增加 了 动态 进程 管理 、 单 向 通信 以 及 并 行 IO0。 第 2 章 谈 到 了 单 向 
通信 和 并 行 LO。 并 且 ， 在 讨论 Pthreads 时 ， 我 们 谈 到 许多 Pthreads 程序 是 在 需要 的 时 候 创 建 线 
程 ， 而 不 是 在 程序 开始 执行 的 时 候 就 创建 了 所 有 的 线程 。 动 态 进 程 管理 为 MPI 的 进程 管理 增加 了 
这 个 功能 以 及 其 他 一 些 功 能 。 文献 [24] 是 对 MPI -2 的 一 个 介绍 。 文 献 [37] 是 MPI -1 和 
MPI -2 标准 的 混合 版 本 。 

2. Pthreads 和 信号 量 

我 们 已 经 讨论 了 Pthreads 中 的 一 些 函 数 ， 例 如 启动 和 终止 线程 ， 保 护 临 界 区 和 线程 同步 。 但 
还 有 一 些 其 他 函数 没有 讨论 到 ， 这 可 能 会 影响 已 讨论 的 函数 的 行为 。 在 不 同 的 对 象 初始 化 函数 中 
有 一 个 “属性 ”(attribute) 参数 ， 一 般 情况 下 都 是 简单 地 传递 NULL 值 给 这 样 的 参数 ， 所 以 对 象 
函数 会 采取 “默认 ”行为 。 如 果 传 递 其 他 值 给 这 些 参数 ， 那 么 这 些 函 数 会 表现 出 不 同 的 作用 。 例 
如 ， 如 果 一 个 线程 含有 一 个 互 斥 量 ， 并 且 想 对 互 斥 量 再 次 执行 锁 操 作 (例如 递归 函数 调用 )， 默 
认 情 况 下 该 情况 是 未 定义 的 。 然 而 ， 如 果 互 斥 量 是 用 属性 PTHREAD_MUTEX_ERRORCHECK 来 创 
建 的 ， 那 么 第 二 次 对 pthread_mutex_lock 的 调用 就 会 返回 错误 。 另 一 方面 ， 如 果 互 斥 量 是 用 
属性 PTHREAD_MUTEX_RECURSIVE 来 创建 的 ， 那 么 该 操作 就 会 成 功 返 回 。 

另外 ， 我 们 也 接触 到 了 非 阻 塞 式 操作 的 使 用 。 在 讨论 树 搜索 动态 实现 的 时 候 ， 我 们 提 及 了 
pthread_mutex_try1ock 函数 。 同 样 地 ， 也 有 非 阻塞 版 本 的 读 写 锁 函 数 和 sem_wait。 这 些 函 
数 为 线程 提供 了 当 锁 或 者 信号 量 被 其 他 线程 占用 的 情况 下 可 以 继续 工作 的 机 会 。 因 此 它们 有 极 大 
的 潜力 去 提升 应 用 程序 的 并 行 度 。 

与 MPI 一 样 ，Pthreads 和 信和 号 量 也 是 在 不 断 发 展 的 标准 。 它 们 是 POSIX 标准 的 一 部 分 。 网 络 
上 有 POSIX 标准 的 最 新 版 本 ， 可 以 通过 Open Group [41] 来 寻找 。Pthreads 头 文件 的 帮助 手册 
[46] 和 信号 量 头 文件 的 帮助 手册 [48] 提供 了 Pthreads 和 信和 号 量 所 有 函数 的 帮助 手册 链接 。 关 
于 Pthreads 的 某 些 文档 ， 参见 文献 [6，32] 。 
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3. OpenMP 

我 们 已 经 了 解 了 一 些 OpenMP 中 最 重要 的 指令 、 子 句 和 函数 ， 也 知道 了 如 何 去 开 启 多 个 线 
程 ， 如 何 并 行 化 for 循环 ， 如 何 保护 临界 区 资源 ， 如 何 调度 循环 ， 以 及 如 何 修 改变 量 的 作用 域 。 
然而 ， 依 然 有 一 些 很 有 用 的 知识 我 们 没有 涉及 。 其 中 最 重要 的 一 个 新 指令 是 最 近 被 引入 的 task 
指令 。 它 可 以 用 于 并 行 化 如 递归 涌 数 调用 和 while 循环 这 样 的 结构 。 本 质 上 ， 它 将 一 个 结构 化 块 
标记 为 一 个 线程 执行 的 任务 。 当 一 个 线程 遇 到 task 指令 时 ， 线 程 可 以 或 者 执行 结构 化 块 中 的 代 
码 ， 或 者 被 加 入 到 一 个 任务 概念 池 中 。 当 前 组 中 的 线程 将 执行 任务 ， 直 到 任务 概念 池 变 空 。 

OpenMP 体系 结构 审查 委员 会 正在 不 断 开 发 OpenMP 标准 。 最 新 的 文档 可 从 文献 [42] 中 获 
得 。 文 献 [8，10，47] 也 是 一 些 相关 的 资料 。 

4. 并 行 硬件 

并 行 硬 件 发 展 很 快 。 幸 运 的 是 ， 来自 于 Hennessy 和 Patterson [26，44j 的 文档 也 在 以 同样 的 
速度 更 新 。 他 们 提供 了 诸如 指令 级 并 行 、 共 享 内 存 系统 和 网 络 互 连 等 方面 主题 的 全 面 概述 。 文 献 
[11] 专门 关注 和 研究 了 并 行 系统 。 

5. 通用 并 行 编程 

有 许多 介绍 并 行 编 程 的 书籍 并 不 只 关注 某 类 特定 的 API。 文 献 [50j 提供 了 一 个 相对 初级 
的 、 既 关于 分 布 式 内 存 系统 也 关于 共享 式 内 存 系统 编程 的 讨论 。 文 献 【22] 对 并 行 算法 进行 了 广 
谤 的 讨论 ， 并 对 程序 性 能 给 出 了 先 验 分 析 。 文 献 [33] 概述 了 目前 流行 的 并 行 编程 语言 ， 并 给 出 
了 将 来 的 一 些 发 展 方向 和 研究 热点 。 

对 于 共享 式 内 存 系统 的 编程 可 以 参考 文献 [3, 4，27]。 文 献 [4] 讨论 了 设计 和 开发 共享 式 
内 存 系统 程序 的 技术 。 除 此 之 外 ， 它 也 开发 了 一 些 为 解决 如 搜索 和 排序 问题 的 并 行程 序 。 文 献 
[3] 和 文献 [27] 都 深入 讨论 了 如 何 确定 一 个 算法 是 否 正确 以 及 确保 正确 的 机 制 。 

6. GPU 

在 并 行 计算 中 最 有 前 途 的 发 展 方向 之 一 就 是 使 用 GPU 进行 通用 计算 。 它 已 经 很 成 功 地 应 用 
于 不 同 的 数据 并 行程 序 ， 或 者 处 理 器 之 间 通 过 划分 数据 来 获取 并 行 度 的 程序 。 文 章 [17] 和 书 
[30] 概述 了 GPU 的 相关 知识 。 除 此 之 外 , 书 {f30] 还 提供 了 关于 CUDA 编程 的 介绍 、 对 GPU 
进行 编程 的 NVIDIA 语言 ， 以 及 OpenCL (一 种 在 包括 常规 CPU 和 GPU 的 异 构 系 统 上 进行 编程 的 
标准 ) 。 

7. 并 行 计算 的 历史 

很 多 程序 员 会 惊讶 地 发 现 ， 其 实 并 行 计算 与 大 部 分 的 计算 机 科学 的 主题 一 样 ， 有 着 漫长 而 古 
老 的 历史 。 文 章 [14] 给 出 了 一 些 简 单 的 调研 和 引用 。 而 网 站 [51] 在 并 行 系统 的 发 展 历 史上 
是 有 里 程 碑 意 义 的 。 

好 吧 ， 现 在 你 可 以 开始 征服 新 的 世界 了 1! 
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point-to-point 〔〈 点 对 点 通信 ) ，104 ，137 
for trapezoidaj rule (梯形 积分 法 ), 96/ 
tree-structured ( 树 状 结构 ), 102 - 103 
Communicator，MPI ( 通信 子 ，MPI), 87 -88 ，136 
Compiler (编译 器 ), 28, 71, 153 ，166 ，227 
Compiler use (编译 器 使 用 ) , 211n 
Computational power (计算 能 力 ) ,2 
Concurrent computing (并 发 计算 ) ,9 -10 
Condition variables { 条 件 变 量 ), 179 -181, 199 
condition broadcast ( 条件 广 播 ), 199 
condition signal 《条 件 信号 ) ，199 
condition wait (〈 条件 等 待 ) ，190 
Consumer threads ( 消费 者 线程 ), 242 
Coordinating processes/threads (协调 进程 /线程 )， 
48 -49 
Core ( 核 ),3 
Count sort 〈 计数 排序 ) , 273 
CPU， 参 见 Central Processing Unit 
criticajl directives (critical 指令 ), 249 
Critical sections (临界 区 )，162 - 165, 168, 199，, 
218, 223 
and busy-waiting ( 忙 等 待 ), 165 - 168 
and jocks ( 锁 ), 246 -248 
and mutexes ( 互 上 斥 量 ), 168 - 171 
and semaphores (信号 量 ), 174 
Crossbar ( 交叉 开关 矩阵}, 35, 40, 74 
CUDA, 355 
Cyclic partition of vector ( 向量 循环 划分 ), 109, 138 
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D 
Data (数据 ) 
analysis (分 析 ) .2 
dependences 〈 依 赖 )，227 -228 
distribulions (分 布 ), 109 -110 
parallelism (并 行 ), 6 -7, 30 
DAXPY 〈 双 精度 a 倍 天 加 了 ), 343 
Deadlock (和 死 锁 ) ，132，140，203 
Depth-first search ( 深度 优先 搜索 ) . 301 - 305 
Dequeue (出 队列 ), 243, 248 
Derived datatypes (派生 数据 类 型 ), 116 -119 
Get input funclion with (et _ input 顶 
数 ) ,120 
Dijkstra, Edsger. 174 
Direct interconnect ( 直接 互 连 结 构 ), 37 -38 
Directed graph (digraph) (有 向 图 ), 300 
Directives-based shared-memory programming ( 基于 指 
令 的 共享 内 存 编程 ), 210 
Directory-based cache coherence (基于 目录 的 缓存 一 
致 ), 44 -45 
Distributed computing ( 分布 式 计算 )}, 9 -10, 12 
Distributed-memory (分 布 式 内 存 ) 
interconnects ( 互 连 ). 37 -42 
programs 〈 程序 ) 53 -56 
message~passing APL (消息 传递 API) ,53 - 55 
one-sided communication 〈 单 向 通信 ) ,55$ 
partitioned global address space languages (划分 全 
局 地 址 空间 的 语言 ), 55 -56 
systems ( 系统), 8, 9f, 12, 33f, 35, 83/ 
zs.，shared-memory (共享 内 存 ), 46 
Distributed termination detection (分 布 式 终止 检测 )， 
331 -333 
Drug discovery (药物 发 现 ) , 2 
Dynamic mapping scheme (动态 映射 机 制 ), 308 
Dynamic parallelization of tree search using pthreads 
(使 用 Pthreads 的 树 状 搜索 动态 并 行 ) ，310 -315 
dynamic schedule types (dynamic 调度 类 型 ), 239 
Dynamic threads (动态 线程 ) , 49 


E 
Eclipse (integrated development environment) (Eclipse 
(集成 开发 环境 ) ) , 70 
Efficiency (效率 ), 58 -61, 75, 125 -126, 139, 253 
Embarrassingly parallel ( 易 并 行 ), 48 ,74 
Energy (in distributed termination detection ) (能 时 
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(分 布 式 终止 检测 中 ) ) , 332 
Energy research (能 量 研究 ) ，2 
Enqueue 《人 队 ), 242, 243 
Envelope (of message) (信封 (消息 的 ) ) , 93 
Error checking (错误 检查 ), 215 -216 
Euler, Leonhard, 275 
Euler's Method 〈 欧 拉 方 法 ) , 275, 276f, 279, 350 -351 
Explicit parallel constructs ( 显 式 并 行 构造 ) . 8 


F 

Faimess (公平 ), 250 

False sharing ( 伪 共 享 ), 194, 200, 255 -256 

Feasible (tree search) (可 行 性 ( 树 状 搜索 ))， 
302, 307 

Fetch (获取 ), 20, 26 

fgets function (fgets 函数 ) ，196 

File-wide scope (文件 范围 作用 域 ), 220 

Find_bin function (Find_bin 函数 ), 67, 68 

Fine-grained multithreading (〈 细 颗粒 度 多 线程 ) ,29 

Flynn's taxonomy (Flynn 分 类 ) , 29 

for directive (OpenMP) (for 指令 (OpenMP ) )， 
235, 260 

Fork (派生 ), 158, 259 

Forking process (派生 进程 ), 213 

Fosters methodology ( Foster 方法 )，66，68f，129， 
271, 277, 279 

Fosters methodology (Foster 方法 ) , 216 

Fulfill_request (in parallel tree search) 
(Fulfill_request (在 并 行 树 状 搜索 中 ) ) ， 
327 , 329 , 349 

Fully-connected network (全 互连网 络 )，38, 39f 

Function-wide scope 《函数 范围 作用 域 ) , 220 


G 
Gaussian elimination (高 斯 消 元 法 ), 269 
gcc (GNU C compiler) (gcc (GNU C 语言 编译 
器 ) ) ,8$n，153n 
General parallel programming (通用 并 行 编 程 ), 354 
Get_rank function (Get_rank 函数 ), 53 


Get_current time function (Get _current _ 


time 函数 ), 64 
GET_TIME macro (GET_TIME 宏 ), 121, 138, 203 
gettimeofday function ( gettimeofday 函 
数 ) ，121 
Global sum 《全 局 总 和 ) ,5 -7 


function ( 王 数 ) ，103 
multiple cores forming (多 核 组 成 ) ,5 
Global variables (全 局 变量 ), 97, 137 
Graphics Processing Unit (CPU， 图 形 处 理 单元 )， 
32, 355 
guided schedule types (guided 调度 类 型 ) , 239 
Gustafsoms law ( Gustafson 定律 ), 62 


H 
Hang ( 挂 起 ), 94, 132 
Hardware multithreading (硬件 多 线程 ) , 28 -29 
Heterogeneous system ( 异 构 系统 ), 73 
Homogeneous system ( 同 构 系 统 ) ,73 
Hybrid systems (混合 系统 ), 35 
Hypercubes ( 超 立 方 体 ), 39，, 40f 


| 
ILP， 参 见 Instruction-level parallelism 
Indirect interconnects ( 间接 互 连 ) , 40, 40f 
Input and Output (WO, 输入 输出 ), 56 -57, 75， 
280 -281 
Instruction-Level Parallelism (ILP， 指 令 级 并 行 ) 
multiple issue (多 发 射 ), 27 -28 
pipelining ( 流水线) , 25 -26, 27: 
Integrated Development Environments (IDEs， 集 成 开 
发 环境 ) , 70 
nterconnection networks (互连网 络 ) 
direct interconnect ( 直接 互 连 ), 37 -38 
distributed-memory interconnects (分 布 式 内 存 互 
连 ) , 37 -42 
indirect interconnects (间接 互 连 ), 40 
latency and bandwidth (延迟 与 带宽 ), 42 
shared-memory interconnects (共享 内 存 互 连 )， 
35 -37 
switched interconnects (交换 式 互 连 ) , 35 


J 
Joining process (合并 进程 ), 213 


K 
Kernighan, Brian, 和 Ritchie, Dennis, 71, 84 
Kluge, 157 


L 
Latency (延迟 ), 42, 74 
Leaf ( search tree) (叶子 结 点 (搜索 树 ) ), 301, 306 


Libraries ( MPI，Pthreads，OpenMP ) 
Pthreads 、OpenMP) ), 8 
Light-weight processes ( 轻 量 级 进程 ), 152 
Linear speedup 《线性 加 速 比 ) , 125 
Linked list (链表 ) 
functions 〈 郴 数 ) ,181 -183 
Delete (Delete), 182, 184 
Insert (Insert), 182, 183 
Member (Member), 182, 186 
multithreaded (多 线程 ), 183 - 187 
Linux (Linux), 153 
Load (as in load/store) ( 装 人 ( 装 人 /存储 ) ) , 31 
Load balancing ( 负载 平衡 ) ,7,， 12, 48 
Local variables ( 局 部 变量 ) ,97，137 
Lock data structure 〈 锁 数 据 结构 ), 242 
Locks ( 锁 ), 246 -248 
Loop-carried dependences (循环 依赖 ) , 228 -229 
Loops (循环 ) 
bubble sort ( 冒 泡 排序 ), 232 - 233 
odd-even transposition sort (奇偶 变换 排序 )， 
233 -236 
scheduling (调度 ) , 236 -241 
lpthread, 153 


( 库 (MPI、 


M 
MacOS X, 153 
Main memory ( 主 存 ) , 15, 71, 72, 251 
Main thread (主线 程 ), 157, 158f 
Man page (帮助 手册 ), 354 
Mapping (Fosters methodology) (分 配 (Foster 方 
法 )), 76, 279 
Mapping (Caches) (映射 (缓存 ) ) , 20 -22 
Master thread ( OpenMP) (主线 程 (OpenMP) ) ,214 
Matrix-vector multiplication (和 矩阵 -向 量 乘 法 )， 
114f, 159 -162, 160f, 192 
local (局 部 ), 124 
parallel (并 行 ) 116, 125:, 126t 
performance of (性 能 ) , 119 
results of timing (计时 结果 )，, 122, 123: 
run-times and efficiencies of (运行 时 及 效率 ) ,192t 
serial 〈 串 行 ) ，115 
Member function (Member 函数 ) ，182 
implementation of (实现 ), 186 
memcpy (C library function) (memcpy (C 语言 函数 
库 函 数 ) ) ，268 
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Memory ( 内存) 15, 16 
cache (缓存 ) ，191, 251 
transactional (事务 内 存 ) , 52 
virtual (虚拟 内 存 ), 23 - 25 
memset (C library function) (memset (C 语言 函数 
库 函数 ) ) ，277 
Merge (合并 ), 135, 147 
Mergesort (归并 排序 ), 148 
Message ，matching ( 消息， 匹配 ) , 91 -92 
Message-passing ( 消息 传递 ) , 242 
locks in 〈 锁 住 ) ，248 - 249 
Message-Passing Interface ( MPI) 
8, 83, 338 -341, 353 
communicator (通信 子 ), 87 -88 
datatypes (数据 类 型 ), 891 
derived datatypes (派生 数据 类 型 ), 116 -119 
and dynamic partitioning ( 动态 划分 ) 
checking and receiving (检查 与 接收 ), 333 -334 
distributed termination detection (分布 式 终 止 检 
测 ), 331 -333 ，3321 
OpenMP (OpenMP), 327 
performance of (性 能 ) , 334 -335, 334t 
Pthreads ( Pthreads) ，327 
sending requests 《发 送 请 求 ), 333 
splitting stack ( 分离 栈 ) ，329 -331 
forum 《论坛 ), 106 
implementation (实现 ) , 290, 293f/, 296, 323, 334 
input (输入 ) ，100 -101 
operators in (运算 符 ), 104t 
output (输出 ), 97 -100 
parallelizing，n-body solvers (并行 化 ，n 体 问 题 求 
解 ), 290 -297 
programs (程序 ) ,86 
performance evaluation of (性 能 评估 ), 119 - 127 
potential pitfall in 〈 洪 在 陷阱 ) , 94 
safety in (安全 性 ), 132 -135, 140 
scatter (散射 ), 110 -112 
solvers，performance of (求解 性能)，297 - 
299, 2981 
and static partitioning (静态 划分 ) 
maintaining (维护 ) , 321 -325 
partitioning (划分 ), 320 -321 
printing (输出 ), 325 -326 
unreceived messages (未 接收 消息 ), 326 
trapezoidal rule in (梯形 积分 法 ) ,94 -97 


(消息 传递 接口 )， 
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Mieroprocessor ，increase in performance ( 微 处 理 器 ， MPI_LOR，104 

性 能 提升 ) , 1 -3 MPI_LXOR, 104 
Microsoft (微软 ), 70 MPI_MAX, 104, 122 
MIMD systems ,参见 Multiple instruction，muljtiple da- MPI_MAXLOC, 104 

ta sytems MPI_MIN, 326 
Modes and buffered sends (模式 与 缓冲 发 送 ), 323 -325 MPI_MINLOC, 326, 339 
Monitor (监视 器 ), 52 MPI_Op, 104 
Monte Carlo method (蒙特 卡 洛 方法 ) 148, 207, 268 MP1_Pack, 117, 138, 145, 324, 329, 330, 341 
MPI, 参见 Message-Passing Interface MPI_Pack_size, 324 
mpi.h, 86, 136 MPI_PACKED, 145, 331, 341 

PI_Aint, 118 MPI_Recv, 90 -91, 136 
MPI_Allgather, 115, 124 semantics of (语义 ), 93 -94 
MPI_Allreduce, 106 MPI_Reduce, 103 -105, I0QS: 
MPI_ANY_SOURCE, 91, 92, 322, 340 MPI_Reduce_scatter, 148 
MPI_BAND, 104 MPI_Request, 348 
MPI_Barrier, 122, 138 MPI_REQUEST_NULL ,348 
MPI_Bcast, 108, 109, 117, 137 MPI_Rsend, 324, 340 
MPI_BOR, 104 MPI_Scan, 142 
MPI_Bsend, 324, 340 MPI_Scatter, 111, 137 
MPI_BSEND_OVERHEAD, 325 MPI_Scattery, 143, 320, 339 
MPI_Buffer_attach, 324, 340 MPI_Send, 88 -90, 136 -137 
MPI_Buffer_detach, 324, 326, 340 semantics of (语义 ), 93 -94 
MPI_BXOR, 104 MPI_Sendrecv, 133-135, 140, 296 
mpicc command (mpicc 命令 ), 85 MPI_Sendrecv_replace, 140, 296, 344 
MPI_CHAR, 53, 89 MPI_SOURCE, 92, 322, 340 
MPI_Comm, 88 MPI_Send, 132, 140, 324, 340 
MPI_Comm_rank, 87 -88 MPI_Status, 92, 93, 348 ' 
MPI_Comm_size, 87 -88 MPI_STATUS_IGNORE, 91 
MPI_COMM WORLD, 87 -88 MPI_SUM, 104, 105 
MPI_Datatype, 89, 104 MPI_TAG, 92 
MPI_DOUBLE, 89 MPI_Type_commit, 119 
MPI_ERROR, 92 MPI_Type_contiguous, 143 
mpiexec command (mpiexec 命令 ), 86 MPI_Type_create_ struct, 118, 138, 144 
MPI_Finalize, 86, 136 MPI_Type_free, 119 
MPI_FLOAT, 89 MPI_Type_indexed, 144 
MPI_Gather, 112, 137 MPI_Type_vector, 143, 144 
MPI_Gathery, 143, 321, 339 MPI_Unpack, 145, 329, 330, 340, 349 
MPI_Get_address, 118 MPI_Wait, 348 
MPI_Get_count, 92, 93, 349 MPI_Waitall, 348 
MPI_Init, 86, 136 MPI_Wtime function, 64 
MPI_IN_PLACE, 338, 344 Multithreaded linked list (多 线程 链表 ), 183 -187 
MPI_INT, 89, 321 Multithreaded programming ( 多 线程 编程 ), 153 
MPI_Iprobe, 322, 326, 329, 331, 339, 340 Multicores ( 多核) 
MPI_Isend, 347 forming global sum (形成 全 局 和 ) ,SF 


MPI_LAND ，104 integrated circuits (集成 电路 ) ，12 


processors (处 理 器 ) , 3 
Multiple instruction, multiple data ( MIMD ) systems 
(多 指令 多 数据 流 (MIMD) 系统 ) ，32 -33 
distributed-memory system (分 布 式 内 存 系 统 ), 33， 
33f, 35 
shared-memory systems 〈 共享 内 存 系 统 )，33 - 
34, 33f 
Multiprocessor ( 多 处 理 器 ) ，1 
Multistage interconnect (多 级 互 连 ), 74 
Multitasking operating system (多 任务 操作 系统 )， 
17 -18 
Mutexes ( 互 斥 量 ) ，$1，168 -171, 177, 199 
Mutual exclusion techniques ，caveats ( 互 斥 技术 ， 警 
告 ) ,249 -251 
My avail tour_count, 329 


N 
n-body solvers (n 体 问题 求解 ) 
I/O, 280 -281 (LO) 
MP] solvers，performance of ( MPI 求解 ， 性 能 )， 
297 -299 ，298: 
OpenMP Codes evaluation ( OpenMP 代码 评价 )， 
288 -289 ，23881 
parallelizing (并 行 化 ) 
communications (通信 ), 278f, 279/ 
computation (计算 ), 280 
Fosters methodology ( Foster 方法 ), 277, 279 
MPI (MPI), 290 - 297 
OpenMP, 281, 284, 288 —289 
Pthreads, 289 — 290 
problem (问题 ), 271 -272 
two serial programs (两 个 捉 行 程序 ) 
basic and reduced algorithm (基本 与 简化 算 
法 ), 274 
compute forees (计算 作用 力 ), 273, 274 
Eulers Method 〈 欧 拉 方 法 ) ,275 ，276/ 
numerical method 〈 数值 方法 ) , 274 
tangent line (切线), 275, 275f 
Nested for loops ( 髓 大 循环 ) ，124 
Nonblocking ( 非 阻塞 ), 337, 347 
Nondeterminism (不 确定 性 ), 49 -52, 74, 100 
Nonovertaking (不 可 抢先 的 ), 93 
Nonrecursive depth-first search ( 非 递 归 深 度 优 先 搜 
索 ), 303 -305 
Nonuniform memory access (NUMA ) system (〈 非 一 致 
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内 存 访问 (NUMA) 系统 ), 34, 34/ 
nowait clause (nowait 子 句 ), 284, 338 
NP complete (NP 完全 ) , 299 
num threads clause (num_threads 子 句 ), 214 
NVIDIA, 355 


O 
Odd-even transposition sort ( 奇 - 个 交换 排序 )， 
233 -236 
algorithm (算法 ) ，128 
parallel 《并行 ), 129 - 132, 131:, 134 -136, 135 
omp.h, 212, 247 
omp_destroy_lock, 247 
omp_get_num threads, 214, 215, 260 
omp_get thread_num, 214, 215 .260 
omp_get_wtime_function (omp_get _wtime 
函数 )，64 
omp_init_lock, 247 
omp_lock_t, 247, 248 
OMP_SCHEDULE, 240 
omp_set_lock, 248, 316 
omp_test_]1ock，338 
omp_unset_lock, 248 
One_sided communication ( 单 向 通信 ), 55, 75 
OpenCL, 355 
OpenMP, 8 -9. 316, 318, 337 -338 
compjling and running (编译 与 运行 ) , 211 -212 
directives-based shared-memory ( 基于 指令 的 共享 
内 存 ), 210 
error checking (错误 检查 ) , 215 -216 
evaluation (评价 ),， 288 -289, 288i 
forking and joining threads (生成 与 合并 线程 ) , 213 
loops (循环 ) 
bubble sort (家 泡 排 序 ) ,232 -233 
for directive (for 指令 ), 343 
odd-even transposition sor (奇偶 交换 排序 )， 
233 -236 
scheduling (调度 ), 236 -241 
num _ threads clause ( num _ threads 子 
句 ) ，214 
parallel directive (parallel 指令 ) ,213, 214 
parallel for direetive (Parallel for 指令 ) 
caveats (警告), 225 -227 
data dependences (数据 依赖 ) ,227 -228 
estimating mT (估计 5 值 ), 229 -231 
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loop-carried dependences (循环 依赖 ) , 228 -229 
parallelizing ，n-body solvers 〔〈 并 行 化 , 二 体 问题 求 
解 ) ,281, 284, 288 -289 
performance of (性 能 ) , 318 -319, 3191 
pragmas (pragma 指令 ), 210 -211 
and Pthreads (Pthreads), 209 
reduction clause (reduction 子 句 ), 221 -224 
scope of variables (变量 作用 域 ) , 220 -221 
shared-memory system (共享 内 存 系统 ), 209, 210 
structured block (结构 化 块 ), 213 
thread of execution (执行 线程 ), 213 
trapezoida] rule (梯形 积分 法 ) 
critical section (临界 区 ), 218 
Fosters methodology (Foster 方法 ), 216 
Trap function (Trap 函数 ) ,218 -220 
tree search ，implementation of ( 树 形 搜 索 ， 实 现 ) 
MPI and dynamice partitioning ( MPI 和 动态 划 
分 ) ,327 
parallelizing (并行 化 ), 316 -318 
OpenMP Architecture Review Board (OpenMP 体系 结 
构 审 查 委 员 ), 354 
Operating system (0S) (操作 系统 ) 
multitasking (多 任务 ), 17 -18 
processes (进程 ), 17 -18, 18f 
Output (输出 ), 56 -57, 97 -100 
Overhead (开销 ), 55, 58, 189, 241, 280 


Pp 
Page (virtual memory) (页 (虚拟 内 存 )), 24, 72 
Page fault (页 失效 ), 25 
Parallel computing (并 行 计算 ) , 9 -10, 12 
history of (历史 ), 355 
parallel directive (parallel 指令 ), 213, 214 
parallel for directive (parallel for 指令 ) 
caveats (警告 ), 225 -227 
data dependences (数据 依赖 ), 227 -228 
estimatingT (估计 7 值 ), 229 -231 
]oop-carried dependences (循环 依赖 ), 228 -229 
Parallel hardware (并 行 硬 件 ), 73 -74, 354 
cache coherence (缓存 一 致 性 ) , 43 -46 
interconnection networks (互连网 络 ) , 35 -42 
MIMD systems (MIMD 系统 )}, 32 -35 
shared-memory vs，distributed-memory (共享 内 存 系 
统 与 分 布 式 内 存 系统 ) , 46 
SIMD systems (SIMD 系统 ) ,29 -32 


Parallel odd-even transposition sort _ algorithm (〈 并行 
奇 - 偶 交 换 排序 算法 ) ，129 -132，131 
Merge_low function in (Merge_low 函数 ) ,136 
run-times of (运行 时 ) ，13Si 

Parallel programs 〈 并行 程序) ,1, 10 -12 
design (设计 ), 65 -70, 76 
performance (性 能 ) , 75 -76 

Amdahl's law( 阿 姆 达尔 定律 ), 61 -62 
scalability (可 扩展 性 ) ,62 
speedup and efficiency 《加速 比 和 效率 ), 58 -61 ， 
59t, 60f 
timings (计时 ), 63 -65 
running (运行 ), 70 
writing ( 写 ), 3 -8, 11,70 

Parallel software (并 行 软件 ), 74 -75 
caveats (和 警告), 47 -48 
coordinating processes/threads (协调 进程 /线程 )， 

48 -49 
distributed-memory programs (分 布 式 内 存 程 序 )， 
53 -56 
programming hybrid systems (混合 系统 编程 ), 56 
shared-memory programs (共享 内 存 程序 ), 49 - 53 

Parallel sorting algorithm (并 行 排序 算法 ), 127 

Parallel systems ，building (并 行 系统 ， 建 立 ) , 3 

Parallelization (并 行 化 ), 8, 9, 48, 61 

Partial sums ，computation of (部 分 和 ， 计 算 ) ,7 

Partitioned global address space ( PGAS) languages 
(划分 全 局 地 址 空间 (PGAS) 的 语言 )，55 - 56 

Partitioning data (划分 数据 ), 66 

Partitioning loop iterations 〈 划分 循环 和 迭代) , 290 

Performance evaluation (性 能 评估 ), 15 
results of timing (计时 结果 ), 122 - 12S 
scalability (可 扩展 性 ), 126 - 127 
speedup and efficiency (加 速 比 和 效率 ), 125 - 126 
taking timings ( 耗 时 ) ,119 -122 

Ping-pong communication (乒乓 通信 ), 148 

Pipelining (流水 线 ) , 25 -28, 72 

Point-to-point communications 《点 对 点 通信 ), 104, 137 
collective w. (集合 通信 ) ，105 - 106 

Polling ( 轮 询 ), 55 

Pop (stack) (出 〈 栈 ) ) ,303 ,304 

Posix Threads ,参见 Pthreads 

POSIX ® (POSIX), 153, 174, 181, 354 

Prefix sums 〈 前 组 和 ) ，142 

Preprocessor ( 预 处 理 器 ) ，121, 259 


Pragmas (Pragma 指令 ), 210 -211 

Processes ，operating systems ( 进程， 操作 系统 )， 
17 -18 ，18/ 

Producer threads (生产 者 线程 ), 242 

Producer-consumer synchronization (生产 者 - 消费 者 
同步 ), 171 - 176 

Program，compilation and execution ( 编程， 编译 和 执 
行 ) ,84 -86 

Program counter (程序 计数 器 ) ，16 

Progress (进程 ), 9 

Protect ( critical section ) (保护 (临界 区 )), 245， 
353, 354 

Protein folding (和 蛋白质 折 私 ) , 2 

Pseudocode for Pthreads Terminated function (Pthreads 
终止 函数 伪 代 码 ) ,312 

pthread.h, 155, 156, 198 

pthread attr_t, 156 

pthread_barrier_destroy, 203 

pthread_barrier_init, 203 

pthread_barrier_t, 203 

pthread. barrier_wait, 203 

pthread_barrierattr_t, 203 

pthread_cond_broadcast, 180 

pthread_cond_destroy, 181 

pthread_cond_init， 181 

pthread_cond._signal, 180 

pthread_cond.t, 179, 180 

pthread_cond_wait, 181, 311, 313, 317 
implementing (实现 ) , 180 

pthread_condattr_t, 181 

pthread_create, 156, 157 

pthread_join, 158 

pthread_mutex_destroy，169 

PTHREAD_MUTEX_ERRORCHECK, 354 

pthread_mutex_init, 169, 203 

pthread_mutex_lock, 169, 170, 173, 181, 354 

PTHREAD_MUTEX_RECURSIVE, 354 

pthread_mutex_t, 169 

pthread_mutex_trylock, 314, 337 —338, 354 

pthread_mutex_unlock, 169 

pthread_mutexattr_t, 169 

pthread_rwlock_destroy, 188 

pthread_rwiock_init, 188 

pthread_rwlock_rdlock, 187 

pthread_rwlock_t, 188 
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pthread_rwlock_unlock, 187 
pthread_rwlock_wrlock, 187 
pthread_rwlockattr_t, 188 
pthread t, 156, 157 
Pthreads, 8 ~9, 212, 320, 327, 353, 354 
barriers ( 路障) ，181 
dynamic parallelization of tree search 〈( 树 形 搜索 的 
动态 并 行 )，310 -315 
functions，syntax ( 吸 数 ， 语 法 ) ，187 
implementation of tree-search ，pseudocode for ( 树 形 
搜索 的 实现 ， 伪 代码 ) , 309 
matrix-vector multiplication (矩阵 - 向 量 乘法 ) ，192 
and OpenMP (OpenMP), 337 -338 
parallelizing n-body solvers using (并行 n 体 问 题 求 
解 ) ,289 -290 
program ( 程序 ) 
error checking (错误 检查 ) 158 - 159 
execution (执行 ) ，153 - 155 
preliminaries ( 预 处 理 ), 155 -156 
read-write locks ( 读 写 锁 ), 187 - 188 
running (运行 ), 157 -158 
for shared-memory programming (共享 内 存 编程 ), 209 
splitting stack in parallel tree-search (在 并 行 树 形 搜 
索 中 分 离 栈 ), 314 -315 
starting threads (启动 线程 ), 156 -157, 159 
static parallelization of tree search ( 树 形 搜 索 的 静态 
并 行 化 ), 309 -310 
stopping threads (结束 线程 ) ，158 
termination of tree-search ( 树 形 搜 索 的 终止 )， 
311 -314 
tree search programs ( 树 形 搜 索 程序 ) 
evaluating (评价 ), 315 
run-times of (运行 时 ), 3151 
pthread_t, 156 -158 
Push (stack) (出 ( 栈 )), 303 


Q 
qsort (C library function) (qsort (C 语言 隙 数 库 
消 数 )), 130 
Queues (队列 ) , 241 -242 


R 
Race conditions (竞争 条 件 ), 51, 74, 165, 260 


Read (of memory, cache) ( 读 (内存, 缓存)), 20 
Read access ( 读 取 ), 309 
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Read-lock function ( 读 锁 函数 ) ，187 

Read miss ( 读 缺 失 ), 193, 254 

Read-write locks ( 读 写 锁 ), 181, 199 
implementations ( 实现 ) ，190 
performance of (性 能 ) ，188 - 190 
jinked list functions (链表 了 蚂 数 ), 181 -183 
multithreaded linked list ( 多 线程 链表 ), 183 - 187 
Pthreads, 187 - 188 

Receive_ work function in MPI tree search ( MPI 树 
形 搜索 中 的 Receive_work 函数 ), 334 

Receiving messages (接收 消息 ) ，243 -244 

Recursive depth-first search (递归 深度 优先 搜索 ) ， 
302 -303 

Reduction clause (〈 上 归 约 子 句 ) , 221 -224 

Reduction operator ( 归 约 操作 符 ) , 223 ，262 

Reentrant (可 重 人 ), 197, 258 

Registers (寄存 器 ), 16 

Relinquish (lock，mutex) (释放 ( 锁 ， 互 斥 锁 ) )， 
51, 169, 181, 247, 337 

Remote memory access (远程 内 存 访 存 ) 55 

Request ( MPI nonblocking communication ) (请求 
( MPI 非 阻塞 通信 ) ), 347 

Ring architecture ( 环 结 构 ), 293 

Ring pass (环形 传递 ), 292 
computation of forces ( 作用 力 的 计算 ), 294, 2951 
positions (位 置 ), 293, 294f 

Row major order 〈 行 主 序 ) , 22 

Run-time of parallel programs (并 行程 序 的 运行 时 ), 63 

runtime schedule types (runtime 调度 类 型 )， 
239 -240 


S 
Safe MPI communication (安全 MPI 通信 ) ，1347 
Safety (thread ) (安全 性 (线程 )), 52 -53, 195 - 
198, 256 -259 
Scalability ( 可 扩展 性 ), 31, 62 
Scatter ( MPI communication ) (散射 (MPI 通信))， 
110 -112 
Scatter-gather ( in vector processors ) (散射 -聚集 
(向 量 处 理 器 中 ) ), 31 
Schedule clause (Schedule 子 句 ) ,237 -238 
Scheduling loops (调度 循环 ) 
auto, 238, 261 
dynamic and guided schedule types (dynamic 
和 guided 调度 类 型 ), 239 


runtime schedule types (runtime 调度 类 型 )， 
239 -240 
Schedule clause (Schedule 子 句 ) ,237 -238 
static schedule type (static 调度 类 型 ), 238 -239 
Scope of variables (变量 作用 域 ), 220 -221 
sem_ destroy, 175n 
sem_open, 175 
sem_init, 175 
sem_post, 174, 178, 179, 199 
sem_t, 175 
sem wait, 174, 178, 179, 199 
semaphore.h, 199 
Semaphores (信号 量 ), 52, 171 -179, 199, 353, 354 
functions，syntax ( 区 数 ， 语 法 ), 175 
Sending messages (发 送 消息 ) , 243 
Send_rejects function in MPI tree search ( MPI 树 
形 搜索 中 的 Send_rejects 函数 )，327, 331 
Serial implementations ( 捉 行 实现 ) 
data structures for (数据 结构 ), 305 -306 
performance of (性 能 ) ，306 306t 
Serial programs (〈 串 行 程序 ) ，1. 66 -68 
parallelizing (并行 化 ) , 68 -70 
writing ( 写 ), 11 
Serial systems ( 串 行 系统 ) , 71 -73 
Serialize ( 串 行 化 ),，$8，185 ，189 ，195 
Shader functions (着 色 函 数 ) , 32 
Shared-memory ， 参 见 Distributed-memory 
interconnects ( 互 连 ) ,35 -37 
programs (程序 ), 49 -53, 151, 355 
dynamic thread (动态 线程 ), 49 
nondeterminism in (不 确定 性 ), 49 -52 
static thread ( 静态 线程 ) ,49 
thread safety (线程 安全 性 ) ,52 
systems ( 系统 ), 8, 9f, 12, 33 -34, 83, 84f, 152f 
with cores and caches (内核 与 缓存 ), 43f 
for programming ( 编程 ), 151, 209 -210 
vs. distributed-memory (与 分 布 式 内 存 ), 46 
SIMD systems , 参见 Single instruction，multiple data sys- 
tems 
Simultaneous multithreading (SMT) (同步 多 线程 ), 29 
Single instruction, multiple data (SIMD) systems ( 单 
指令 多 数据 流 (SIMD) 系统 ), 29 -30 
graphics processing units (图 形 处 理 单元 ) , 32 
vector processors ( 向 量 处 理 器 ) , 30 -32 
Single instruction ，single data ( SISD) system ( 单 指 令 


流 单数 据 流 (SISD) 系统 ), 29 

Single program, multiple data ( SPMD ) programs ( 单 
程序 多 数据 流 (SPMD) 程序 ) ，47 -48, 88 

Single-core system ( 单 核 系统 ),， 3 

SISD system， 参 见 Single instruction，multiple data sys- 
tems 

Snooping cache coherence (监听 缓存 一 致 性) , 44 

Sorting algorithm ( 排序 算法 ) 
parallel ( 并行) , 127 
serial ( 串 行 ), 127 - 129 

Speculation (推测 ) , 27 -28 

Spin ( 自 旋 ), 166 

Split_stack function in parallel tree search (并 行 
树 形 搜索 中 的 Sp1it_stack 肾 数 ), 329 

SPMD programs， 参见 Single prgram，multiple data sys- 
tems 

sprintf (C jibrary function) (sprintf (C 语言 
函数 库 函 数 ) ) , 53 

Stack ( 栈 ), 303, 305, 309, 311, 314 ~315, 329 -331 

Stall (停顿 ), 20 

Static parallelization of tree search using pthreads (使 
用 pthreads 的 树 形 搜 索 的 静态 并 行 化 ) ，309 -310 

static storage class in C (C 语言 中 的 static 存储 
类 ), 197, 258 

static schedule type (static 调度 类 型 ), 238 -239 

Static threads (静态 线程 ), 49 

status_p argument ( Status_p 参数 ), 92 -93 

Store (as in joad/store) (存储 ( 装 入 /存储 ) ) , 31 

Strided memory access ( 按 步 长 访 存 ) , 31 

strtok funetion ( strtok 函数 )，196，197， 
258, 259 

strtok_r (C library function) (strtok_r (C 语 
言 晃 数 库 函 数 ) ), 197, 258 

strtol function (strtol 函数 )，1S$5,，213 

Structured block (结构 化 块 ), 213 

Swap space (交换 空间 ) ,24 

Switched interconnects 〈 交换 式 互 连 ) ，35 

Synchronization (同步 ) , 7 


T 

Tag ( MPI message tag) (标记 (MPI 消息 标记 ) ) ， 
90, 91 

Task (Fosters methodology) (任务 (Foster 方法 ) ), 81 

Task-parallelism (任务 并 行 ) ,6 -7, 48 

Terminated function in parallel tree search (并 行 树 
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形 搜索 中 的 Terminated 函数 )，311 - 314， 
317, 318, 327 
Termination detection (终止 探测 ) ,244 
Thread-level parallelism (TLP) (线程 级 并 行 ), 28 
Threads (线程 ) , 18, 18/, 48 -49, 151 
of control 《控制 ), 152 - 1S3 
dynamie ( 动态) ,49 
of execution (执行 ), 213 
function ( 函数) ，196 
for computing nm (计算 5), 163 
running (运行 ) ，157 -158 
incorrect programs 〈 不 正确 的 程序 ) ，198 
strtok function (Strtok 函数 ) ,258 ，259 
Tokenize function (Tokenize 函数 ), 257 
starting (启动 ), 156 -157 
approaches to (方法 ), 159 
siatic (静态 ) , 49 
stopping (停止 ) , 158 
Thread-safety (线程 安全 性 ), 52 -53, 195 - 198 
timer.h, 121, 138 
Timing parallel programs (计时 并 行程 序 ) ,64 
TLP, 参见 Thread-ievel parallelism 
Tokenize function (Tokenize 函数 ) ,257 
Toroidal mesh (二 维 环 面 网 格 ), 37, 74 
Tour (traveling salesperson problem) (旅行 (旅行 商 
问题 )), 299 
Tas ( Tien) , 59, 79, 123 
Ta (TA#), 59,76,79, 123, 170, 253 
Transactional memory (事务 内 存 ) , 52 
Translation programs ( 翻译 程序 ) , 3 
Translation-Lookaside Buffer (TLB， 转 译 后 备 缓冲 
器 ) ,25 
Trap function (Trap 函数 ) , 218 -220 
in trapezoidal mule MPI ( MPI 梯形 积分 法 中 ), 99f 
Trapezoidal rule (梯形 积分 法 ), 94 -95, 95f 
critical section (临界 区 ), 218 
Fosters methodology (Foster 方法 ), 216 
MPI, first version of (MPI， 第 一 个 版 本 ) ,988 
parallelizing ( 并行 化 ) , 96 -97 
tasks and communications for (任务 与 通信 ) ,96/ 
Travelling salesperson problem (旅行 商 问 题 ), 299 
Tree search ( 树 形 搜 索 ) 
depth-first search ( 深度 优先 搜索 ) , 301 
dynamic partitioning (动态 划分 ) 
checking for and receiving new best tours (检查 并 
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接收 新 的 最 佳 路 径 ) ，333 -334 
distributed termination detection (分 布 式 终止 探 
测 ), 331 -333，332t 
in Pthreads and in OpenMP (Pthreads 与 OpenMP 
中 ) , 327 
sending requests ( 发送 请 求 ) , 333 
splitting stack (分 离 栈 ) ，329 -331 
directed graph (有 向 图 ), 300 
MPI (MPI) , 319 -326, 327 -333 
performance of (性 能 ) ，334 - 335 ，3344 
nonrecursive depth-first search 《〈 非 递归 深度 优先 搜 
索 ), 303 -305 
parallelizing (并 行 化 ) 
best tour data structure ( 最 佳 回路 数据 结构 ) ， 
307 -308 
dynamic mapping of tasks (任务 的 动态 映射 ), 308 
mapping details (映射 细节 ), 307 
in Pthreads and OpenMP (Pthreads 与 OpenMP 中 ) ， 
334, 337 
recursive depth-first search (递归 深度 优先 搜索 )， 
302 -303 
serial implementations (上 串 行 实现 ) 
data structures for ( 数据 结构 ) , 305 -306 
performance of (性 能 ) ，306 , 306 
static partitioning (静态 划分 ) 
maintaining best tour (维护 最 佳 回路 ) , 321 -325 
printing best tour (输出 最 优 旅行 ), 325 -326 
in Ptherads and OpernMP ( Pthreads 与 OpenMP 
中 ), 319 -321 
unreceived messages (未 接收 的 消息 ) , 326 
Tree-structured broadcast ( 树 形 结构 广播 ), 108f/ 
Tree-structured communication 〈 树 形 结构 通信 )， 
102 -103 
Ts (Ts), 58, 59, 76, 79, 192 
Typographical conventions 《 印刷 符号 约定 ), 11 


U 
Uniform memory access ( UMA ) system (一 致 内 存 访 
问 (UMA) 系统 ) , 34, 34f 
Unblock ( 非 阻 塞 ), 179, 180 
Unlock (解锁 ), 51, 178, 190 
Unpack ( 解 包 ), 145, 334 
Unsafe communication in MPI (MPI 中 的 非 安 全 通 


信 ), 132, 139, 140 

Update_best_tour in parallel tree search (并 行 树 
形 搜索 中 的 Update_best_tour), 316 
pseudocode for ( 伪 代 码 ) , 310 


V 
Valgrind (Valgrind), 193, 253, 265 
Variable ，condition ( 变量， 条件 ), 179 - 181 ，199 
Vector addition (向 量 相 加 ) 
parallel implementation of 《并 行 实现 ) , 110 
serial implementation of ( 串 行 实现 ), 109 
Vector processors ( 向 量 处 理 器 ), 30 -32 
Virtual address ( 虚拟 地 址 ), 24, 241 
Virtual memory ( 虚拟 内 存 ) , 23 - 25 
volatile storage class (Volatile 存储 类 ), 318 
von Neumann architecture ( 冶 ， 诺 依 曼 结构 )， 
15 -17, 16f 
modifications to (修改 ), 18 
caching ( 绥 存 ) ,19 - 23 
hardware multithreading (硬件 多 线程 ), 28 -29 
instruction-level parallelism (指令 级 并 行 ), 25 -28 
virtual memory 〈 虚拟 内 存 ) , 23 -25 
von Neumann bottleneck ( 冯 “. 诺 依 虹 瓶 颈 ) ,16 -17 


W 

Wait，condition in Pthreads ( 等待，Pthreads 中 的 条 
件 ) ,207, 317, 327 

Waiting for nonblocking communications in MPI (MPI 
中 等 待 非 阻塞 通信 ), 340 

Wildcard arguments (通配符 参数 ), 92 

Windows (Windows), 239, 240 

Wrapper script for C compiler (C 语言 编译 器 的 封装 
脚本 ) ，85 

Write (to cache，memory ，disk) ( 写 (缓存 、 内 存 、 
磁盘 ) ) , 20 

Write-back cache ( 回 写 缓存 ) , 20, 44 

Write miss 〔〈 写 缺失 ) ，193 ，253 

Write-through cache 《( 写 直达 缓存 ), 20, 44 


乙 
Zero-length message ( 零 长 度 消 息 ) ，333 


